CN117121482A - 具有显式运动信令的几何分区模式 - Google Patents

具有显式运动信令的几何分区模式 Download PDF

Info

Publication number
CN117121482A
CN117121482A CN202280026872.8A CN202280026872A CN117121482A CN 117121482 A CN117121482 A CN 117121482A CN 202280026872 A CN202280026872 A CN 202280026872A CN 117121482 A CN117121482 A CN 117121482A
Authority
CN
China
Prior art keywords
gpm
flag
prediction
geometric partition
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280026872.8A
Other languages
English (en)
Inventor
修晓宇
陈伟
郭哲玮
陈漪纹
朱弘正
王祥林
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Publication of CN117121482A publication Critical patent/CN117121482A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了用于解码处于几何分区模式(GPM)的视频块的方法、装置和非暂时性计算机可读存储介质。该方法包括:将视频块划分为第一和第二几何分区;获得所述第一几何分区的第一预测列表并获得所述第二几何分区的第二预测列表;通过基于所述第一预测列表和所述第二预测列表向所述第一几何分区和所述第二几何分区应用具有显式运动信令(EMS)的GPM来获得针怪所述第一几何分区的运动矢量(MV)和针对所述第二几何分区的运动矢量(MV);以及基于所述MV获得所述第一和第二几何分区的预测样点。

Description

具有显式运动信令的几何分区模式
相关申请的交叉引用
本申请基于并要求于2021年4月9日提交的第63/173,303号美国临时申请的优先权,该临时申请的全部内容通过引用完整地并入本文。
技术领域
本申请涉及视频编解码和压缩。更具体地,本申请涉及提高几何分区模式(geometric partition mode,GPM)的编解码效率的方法和装置。
背景技术
可使用各种视频编解码技术来压缩视频数据。根据一种或多种视频编解码标准执行视频编解码。例如,现在,一些公知的视频编解码标准包括:通用视频编解码(VVC)、高效视频编解码(HEVC,也称为H.265或MPEG-H第2部分)和高级视频编解码(AVC,也称为H.264或MPEG-4第10部分),它们由ISO/IEC MPEG和ITU-T VECG联合开发。AOMedia Video 1(AV1)由开放媒体联盟(Alliance for Open Media,AOM)开发,作为其先前标准VP9的后继产品。音视频编解码(AVS)是指数字音频和数字视频压缩标准,其是中国音视频编解码标准工作组开发的另一个视频压缩标准系列。大多数现有视频编解码标准建立在著名的混合视频编解码框架上,即,使用基于块的预测方法(例如,帧间预测、帧内预测)来减少视频图像或序列中存在的冗余,并使用变换编解码来压缩预测误差的能量。视频编解码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式,同时避免或最小化视频质量的下降。
发明内容
本公开提供了用于视频编解码的方法和装置及其非暂时性计算机可读存储介质。
根据本公开的第一方面,提供一种解码处于几何分区模式(GPM)视频块的方法。该方法可包括:将视频块划分为第一和第二几何分区。该方法可包括:获得针对该第一几何分区的第一运动矢量细化(MVR)并获得针对该第二几何分区的第二MVR。该方法可包括:通过基于第一预测列表和第二预测列表向该第一几何分区和第二几何分区应用具有显式运动信令(EMS)的GPM来获得针对该第一几何分区和第二几何分区的运动矢量(MV)。该方法可包括:基于这些MV获得该第一和第二几何分区的预测样点。
根据本公开的第二方面,提供一种解码处于GPM的视频块的方法。该方法可包括:将视频块划分为第一和第二几何分区并且获得针对该第一几何分区的第一MV和针对该第二几何分区的第二MV。该方法可包括:通过基于该第一预测列表和第二预测列表向该第一几何分区和第二几何分区应用具有MVR的GPM或具有EMS的GPP来获得针对该第一几何分区的MV和针对该第二几何分区的MV。该方法可包括:基于这些MV获得该第一和第二几何分区的预测样点。
根据本公开的第三方面,提供一种用于视频编解码的装置。该装置包括一个或多个处理器以及非暂时性计算机可读存储介质。该非暂时性计算机可读存储介质被配置为存储能够由所述一个或多个处理器执行的指令。在执行这些指令时,所述一个或多个处理器被配置为执行第一方面或第二方面中的方法。
根据本公开的第四方面,提供一种非暂时性计算机可读存储介质。该非暂时性计算机可读存储介质可存储计算机可执行指令,当由一个或多个计算机处理器执行时,这些指令使所述一个或多个计算机处理器执行第一或第二方面中的方法。
附图说明
被并入说明书中并且构成说明书的一部分的附图示出了根据本公开的示例,并且与本描述一起用于解释本公开的原理。
图1是根据本公开的一个示例的编码器的框图。
图2是根据本公开的一个示例的解码器的框图。
图3A是示出了根据本公开的一个示例的多类型树结构中的块分区的示图。
图3B是示出了根据本公开的一个示例的多类型树结构中的块分区的示图。
图3C是示出了根据本公开的一个示例的多类型树结构中的块分区的示图。
图3D是示出了根据本公开的一个示例的多类型树结构中的块分区的示图。
图3E是示出了根据本公开的一个示例的多类型树结构中的块分区的示图。
图4是根据本公开的一个示例的允许的几何分区(GPM)分区的示图。
图5是示出了根据本公开的一个示例的单向预测运动矢量选择的表格。
图6A是根据本公开的一个示例的运动矢量差(MMVD)模式的示图。
图6B是根据本公开的一个示例的MMVD模式的示图。
图7是根据本公开的一个示例的以GPM模式对视频块进行解码的方法。
图8是根据本公开的一个示例的以GPM模式对视频块进行解码的方法。
图9是示出了根据本公开的一个示例的与用户接口耦合的计算环境的示图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开中使用的术语仅出于描述具体实施例的目的,并不旨在对本公开进行限制。如在本公开和所附权利要求中使用的,单数形式“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还应理解,本文使用的术语“和/或”旨在表示并包括一个或多个相关列出的项目的任何或所有可能的组合。
应当理解,尽管在本文中可以使用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应被这些术语所限制。这些术语仅用于将一类信息与另一类信息区分开来。例如,在不脱离本申请的范围的情况下,第一信息可以称为第二信息;同理,第二信息也可以称为第一信息。如本文所用,根据上下文,术语“如果”可以理解为表示“在……的时候”或“一……就……”或“响应于判断”。
第一代AVS标准包括中国国家标准“信息技术,高级音频视频编解码,第2部分:视频”(称为AVS1)和“信息技术,高级音频视频解解码,第16部分:无线电视视频”(也称为AVS+)。与MPEG-2标准相比,它可以在相同的感知质量下提供大约50%的比特率节省。AVS1标准视频部分于2006年2月颁布为中国国家标准。第二代AVS标准包括一系列中国国家标准“信息技术,高效多媒体编解码”(即AVS2),主要针对超高清电视节目的传输。AVS2的编码效率是AVS+的两倍。2016年5月,AVS2作为中国国家标准发布。同时,AVS2标准视频部分由电气和电子工程师协会(IEEE)提交,作为应用的一个国际标准。AVS3标准是用于UHD视频应用的新一代视频编解码标准,旨在超越最新国际标准HEVC的编码效率。2019年3月,在第68届AVS会议上,AVS3-P2基线完成,比HEVC标准节省了约30%的比特率。目前,AVS组维护了一个称为高性能模型(HPM)的参考软件,以演示AVS3标准的参考实现。
与HEVC一样,AVS3标准建立在基于块的混合视频编解码框架之上。
图1示出了用于VVC的基于块的视频编码器的总体图。具体来讲,图1示出了典型的编码器100。编码器100具有视频输入110、运动补偿112、运动估计114、帧内/帧间模式决策116、块预测值140、加法器128、变换130、量化132、预测相关信息142、帧内预测118、图片缓冲器120、反量化134、逆变换136、加法器126、存储器124、环路滤波器122、熵编码138和比特流144。
在编码器100中,视频帧被分割成用于处理的多个视频块。对于每个给定视频块,基于帧间预测方法或帧内预测方法形成预测。
表示当前视频块(视频输入110的部分)与其预测值(块预测值140的部分)之间的差的预测残差从加法器128被发送到变换130。然后变换系数从变换130被发送到量化132以用于熵降。然后量化系数被馈送到熵编码138以生成压缩视频比特流。如图1所示,来自帧内/帧间模式决策116的预测相关信息142,如视频块分区信息、运动矢量(MV)、参考图片索引和帧内预测模式,也通过熵编码138被馈送并保存到压缩比特流144中。压缩比特流144包括视频比特流。
在编码器100中,还需要与解码器相关的电路以重建用于预测目的的像素。首先,通过反量化134和逆变换136来重建预测残差。将这种重建的预测残差与块预测值140组合以生成针对当前视频块的未滤波的重建像素。
空间预测(或“帧内预测”)使用来自与当前视频块相同的视频帧中的已编码的相邻块的样点(称为参考样点)的像素来预测当前视频块。
时间预测(也称为“帧间预测”)使用来自已编码视频图片的重建像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定编码单元(CU)或编码块的时间预测信号通常由一个或更多个运动矢量(MV)用信号发送,这些运动矢量指示当前CU与其时间参考之间的运动量和运动方向。此外,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于标识时间预测信号来自参考图片存储器中的哪个参考图片。
运动估计114接收视频输入110和来自图片缓冲器120的信号并且将运动估计信号输出到运动补偿112。运动补偿112接收视频输入110、来自图片缓冲器120的信号和来自运动估计114的运动估计信号,并将运动补偿信号输出到帧内/帧间模式决策116。
在执行空间和/或时间预测之后,编码器100中的帧内/帧间模式决策116例如基于率失真优化方法来选择最佳预测模式。然后从当前视频块中减去块预测值140,并且使用变换130和量化132对所得到的预测残差进行去相关。所得到的量化残差系数由反量化134进行反量化并由逆变换136进行逆变换以形成该重建的残差,然后该重建的残差被添加回预测块以形成该CU的重建信号。可在重建的CU被放入图片缓冲器120的参考图片存储器中并用于对未来的视频块进行编解码之前对该重建信号进一步应用环路滤波122(如去块滤波器、样点自适应偏移(SAO),和/或自适应环路滤波器(ALF))。为了形成输出的视频比特流144,编码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵编码单元138以被进一步压缩和打包以形成该比特流。
图1给出了通用的基于块的混合视频编码系统的框图。输入的视频信号被逐块处理(称为编码单元(CU))。与仅基于四叉树划分块的HEVC不同,在AVS3中,一个编码树单元(CTU)被分割为多个CU,以适应基于四叉树/二叉树/扩展四叉树的不同局部特性。此外,去除了HEVC中的多分区单元类型的概念,即,在AVS3中不再存在CU、预测单元(PU)和变换单元(TU)的分离;相反,每个CU总是用作预测和变换的基本单元,而无需进一步分区。在AVS3的树分区结构中,首先基于四叉树结构对一个CTU进行分区。然后,可以基于二叉树和扩展的四叉树结构进一步对每个四叉树叶子节点进行分区。
如图3A、3B、3C、3D和3E所示,有五种分割类型,四元分区、水平二元分区、垂直二元分区、水平扩展四叉树分区和垂直扩展四叉树分区。
图3A示出了根据本公开的多类型树结构中的块四元分区的示图。
图3B示出了根据本公开的多类型树结构中的块垂直二元分区的示图。
图3C示出了根据本公开的多类型树结构中的块水平二元分区的示图。
图3D示出了根据本公开的多类型树结构中的块垂直三元分区的示图。
图3E示出了根据本公开的多类型树结构中的块水平三元分区的示图。
在图1中,可进行空间预测和/或时间预测。空间预测(或“帧内预测”)使用来自与当前视频块相同的视频帧中的已编码的相邻块的样点(称为参考样点)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已编码视频图片的重建像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定CU的时间预测信号通常由一个或更多个MV用信号发送,这些MV指示当前CU与其时间参考之间的运动量和运动方向。此外,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于标识时间预测信号来自参考图片存储器中的哪个参考图片。在空间和/或时间预测之后,编码器中的模式决策块例如基于率失真优化方法来选择最佳预测模式。然后从当前视频块中减去预测块,并且使用变换对预测残差进行去相关然后将其量化。将量化残差系数进行反量化并逆变换以形成该重建的残差,然后该重建的残差被添加回该预测块以形成该CU的重建信号。可在该重建的CU被放入参考图片存储器中并用于对未来的视频块进行编解码的参考之前对该重建信号进一步应用环路滤波(如去块滤波器、SAO,和/或ALF)。为了形成输出的视频比特流,(帧间或帧内)编码模式、预测模式信息、运动信息和量化残差系数都被发送到熵编码单元以被进一步压缩和打包。
图2示出了用于VVC的解码器的总体框图。具体来讲,图2示出了典型的解码器200的框图。解码器200具有比特流210、熵解码212、反量化214、逆变换216、加法器218、帧内/帧间模式选择220、帧内预测222、存储器230、环路滤波器228、运动补偿224、图片缓冲器226、预测相关信息234和视频输出232。
解码器200类似于位于图1的编码器100中的重建相关部分。在解码器200中,输入视频比特流210首先通过熵解码212进行解码,以导出量化的系数水平和预测相关信息。然后通过反量化214和逆变换216处理量化的系数水平以获得重建的预测残差。在帧内/帧间模式选择器220中实现的块预测值机制被配置为基于解码的预测信息执行帧内预测222或运动补偿224。通过使用加法器218将来自逆变换216的重建预测残差与块预测值机制生成的预测输出相加来获得未滤波的重建像素的集合。
该重建块在被存储在用作参考图片存储器的图片缓冲器226中之前可以进一步经过环路滤波器228。可发送图片缓冲器226中的重建视频以驱动显示设备,并且用于预测未来的视频块。在环路滤波器228开启的情况下,对这些重建像素执行滤波操作以导出最终的重建视频输出232。
图2给出了基于块的视频解码器的总体框图。首先在熵解码单元对视频比特流进行熵解码。编解码模式和预测信息被发送到空间预测单元(如果是帧内编码)或时间预测单元(如果是帧间编码)以形成预测块。这些残差变换系数被发送到反量化单元和逆变换单元以重建该残差块。然后将预测块和残差块相加。可以在重建块被存储在参考图片存储器中之前对其进行进一步的环路滤波。然后将参考图片存储器中的重建视频发送出去以驱动显示设备,并用于预测以后的视频块。
本公开的重点是提高VVC和AVS3标准中使用的几何分区模式(GPM)的编解码性能。在AVS3中,该工具也被称为角度加权预测(AWP),其遵循与GPM相同的设计精神,但在某些设计细节上存在一些细微差异。为了便于描述本公开,在下文中,使用VVC标准中的现有GPM设计作为示例来解释GPM/AWP工具的主要方面。同时,由于在VVC和AVS3标准中应用的另一种称为具有运动矢量差的合并模式(MMVD)的现有帧间预测技术与本公开中提出的技术密切相关,因此还对其进行了简要回顾。然后,明确了当前GPM/AWP设计的一些缺陷。最后,详细介绍了所提出的方法。请注意,尽管在整个公开中使用VVC标准中的现有GPM设计作为示例,但对于现代视频编解码技术领域的技术人员来说,所提出的技术也可以应用于具有相同或类似设计精神的其他GPM/AWP设计或其他编码工具。
几何分区模式(GPM)
在VVC中,支持几何分割模式以用于帧间预测。几何分区模式作为一个特殊合并模式由一个CU级标志通过信号发送。在当前的GPM设计中,对于具有宽度和高度都不小于8且不大于64的每个可能的CU尺寸(不包括8×64和64×8),GPM模式总共支持64个分区,。
当使用这种模式时,用几何定位的直线将CU分割成两部分,如图4所示(后文提供具体描述)。分割线的位置在数学上由特定分区的角度和偏移参数推导得出。该CU中几何分区的每个部分被使用其自身的运动进行帧间预测;针对每个分区只允许单向预测,即每个部分有一个运动矢量和一个参考索引。应用单向预测运动约束以确保针对每个CU只需要两个运动补偿预测,这与传统双向预测相同。若将几何分区模式用于当前CU,则进一步通过信号发送指示几何分区的分区模式(角度和偏移)的几何分区索引和两个合并索引(每个分区一个)。最大GPM候选尺寸的数量以序列级别显式地通过信号发送。
图4示出了允许的GPM分区,其中,每个图片中的分割具有一个相同的分割方向。
单向预测候选列表构造
为了导出针对一个几何分区的单向预测运动矢量,首先直接从常规合并候选列表生成过程中导出一个单向预测候选列表。将n表示为几何单向预测候选列表中的单向预测运动的索引。第n个合并候选的LX运动矢量(X等于n的奇偶性)被用作针对几何分区模式的第n个单向预测运动矢量。
这些运动矢量在图5中用“x”标记(如下所述)。如果第n个扩展合并候选的对应LX运动矢量不存在,则使用同一候选的L(1-X)运动矢量作为针对几何分割模式的单向预测运动矢量。
图5示出了从针对GPM的合并候选列表的运动矢量选择单向预测运动矢量。
沿几何分区边缘的混合
在使用其自身运动获得每个几何分区之后,将混合应用于两个单向预测信号,以导出几何分区边缘周围的样点。针对CU的每个位置的混合权重是基于从每个单独样点位置到相应分区边缘的距离推导出的。
GPM信令设计
根据当前的GPM设计,GPM的使用通过以CU级别通过信号发送一个标志来指示。仅在当前CU通过合并模式或跳过模式被编解码时才会通过信号发送该标志。具体地,当该标志等于1时,指示由该GPM预测当前CU。否则(该标志等于零),CU通过另一种合并模式被编解码,如常规合并模式、具有运动矢量差的合并模式、组合的帧间和帧内预测等。在为当前CU启用GPM时,进一步通过信号发送一个语法元素,即merge_GPM_partition_idx,以指示所应用的几何分区模式(其指定从CU中心的直线的方向和偏移,该直线将CU划分为两个分区,如图4所示)。之后,通过信号发送两个语法元素,merge_gpm_idx0和merge_gpm_idx1,以指示用于第一和第二GPM分区的单向预测合并候选的索引。更具体地讲,这两个语法元素用于从“单向预测合并列表构造”一节中描述的单向预测合并表中确定两个GPM分区的单向MV。根据当前的GPM设计,为了使两个单向MV更加不同,这两个索引不能相同。基于这样的先验知识,首先通过信号发送第一GPM分区的单向预测合并索引,并将其用作预测值,以减少第二GPM分区的单向预测合并索引的信令开销。更详细地来讲,如果第二单向预测合并索引小于第一单向预测合并索引,则直接通过信号发送第二单向预测合并索引的原始值。否则(第二单向预测合并索引大于第一单向预测合并索引),第二单向预测合并索引的值在被通过信号发送到比特流之前被减去1。在解码器侧,第一单向预测合并索引首先被解码。然后,对于第二单向预测合并索引的解码,如果解析值小于第一单向预测合并索引,则将第二单向预测合并索引设置为等于该解析值;否则(该解析值等于或大于第一单向预测合并索引),将第二单向预测合并索引设置为等于该解析值加1。表1示出了当前VVC规范中用于GPM模式的现有语法元素。
表1 VVC规范的合并数据语法表中现有的GPM语法元素
另一方面,在当前的GPM设计中,截断的一元代码用于这两个单向预测合并索引(即merge_GPM_idx0和merge_GPM_idx1)的二值化。此外,由于两个这单向预测合并索引不能相同,因此使用不同的最大值来截断这两个单向预测合并索引的码字,对于merge_gpm_idx0和merge_gpm_idx1,这些最大值分别设置为MaxGPMMergeCond-1和MaxGPMMurgeCond-2。MaxGPMMergeCnd是单向预测合并列表中的候选数。
当应用GPM/AWP模式时,应用两种不同的二值化方法将语法merge_GPM_partition_idx转换为二进制比特串。具体而言,该语法元素分别通过VVC标准和AVS3标准中的固定长度代码和截断二进制代码被二值化。同时,对于AVS3中的AWP模式,不同的最大值用于该语法元素的值的二值化。具体地,在AVS3中,允许的GPM/AWP分区模式的数目是56(即,merge_GPM_partition_idx的最大值是55),而在VVC中,该数目增加到64(即,merge_GPM_papartition_idx最大值是63)。具有运动矢量差的合并模式(MMVD)
除了从一个当前块的空间/时间邻居导出其运动信息的传统合并模式之外,MMVD/UMVE模式作为一种特殊的合并模式被引入VVC和AVS标准中。具体地,在VVC和AVS3两者中,该模式被一个MMVD标志以编码块级别通过信号发送。在MMVD模式中,选择用于常规合并模式的合并列表中的前两个候选作为用于MMVD的两个基本合并候选。在选择并通过信号发送一个基本合并候选之后,通过信号发送附加语法元素以指示添加到所选的合并候选的运动中的运动矢量差(MVD)。这些MMVD语法元素包括用于选择该基本合并候选的合并候选标志、用于指定MVD大小的距离索引和用于指示MVD方向的方向索引。
在现有的MMVD设计中,该距离索引指定了MVD大小,该大小是基于距起点的预定义偏移的一个集合来定义的。如图6A和6B所示,该偏移被添加到起始MV(即,所选的基本合并候选的MV)的水平分量或垂直分量。
图6A示出了用于L0参考的MMVD模式。图6B示出了用于L1参考的MMVD模式。
表2示出了在AVS3分别应用的MVD偏移。
表2 AVS3中使用的MVD偏移
如表3所示,该方向索引用于指定通过信号发送的MVD的符号。注意,MVD符号的含义可以根据起始MV而变化。当起始MV是单向预测MV或双向预测MV时(其中,双向预测MV的MV指向两个参考图片,这两个参考图片的图片顺序计数(POC)都大于当前图片的POC,或者都小于当前图片的POC),通过信号发送的符号是添加到该起始MV的MVD的符号。当起始MV是指向两个参考图片的双向预测MV时(其中,这两个参考图片中的一个图片的POC大于当前图片的POC,另一个图片的POC小于当前图片的POC),通过信号发送的符号被应用于L0 MVD并且通过信号发送的符号的相反值被应用于L1 MVD。
表3由方向索引规定的MVD符号
方向索引 00 01 10 11
x轴 + N/A N/A
y轴 N/A N/A +
用于常规帧间模式的运动信令
类似于HEVC标准,除了合并/跳过模式之外,VVC和AVS3都允许一个帧间CU在比特流中明确指定其运动信息。总体而言,VVC和AVS3中的运动信息信令均保持与HEVC标准中的相同。具体地,首先通过信号发送一个帧间预测语法,即inter_pred_idc,以指示该预测信号来自列表L0还是列表L1或还是来自两者。对于每个使用的参考列表,通过用信号发送针对对应的参考列表的一个参考图片索引ref_idx_lx(x=0,1)来标识对应的参考图片,并且对应的MV由一个MVP索引mvp_lx_flag(x=0,1)表示,该MVP索引用于选择MV预测值(MVP),随后是其在目标MV与所选MVP之间的运动矢量差(MVD)。此外,在VVC标准中,以条带级别通过信号发送一个控制标志mvd_l1_zero_flag。当mvd_l1_zero_flag等于0时,在比特流中通过信号发送L1 MVD;否则(当mvd_l1_zero_flag标志等于1时),不通过信号发送L1 MVD,并且其值在编码器和解码器处总是被推断为零。
具有CU级别权重的双向预测
在VVC和AVS3之前的先前标准中,当不应用加权预测(WP)时,通过对从两个参考图片获得的单向预测信号进行平均来生成该双向预测信号。在VVC中,引入了一种编解码工具,即具有CU级别权重的双向预测(BCW),以提高双向预测的效率。具体地,代替简单的平均,通过允许两个预测信号的加权平均来扩展BCW中的双向预测,如下所示:
P′(i,j)=((8-w)·P0(i,j)+w·P1(i,j)+4)>>3。
在VVC中,在当前图片是一个低延迟图片时,允许从预定义的权重值w∈{-2,3,4,5,10}的集合中选择一个BCW编码块的权重,并且权重4表示两个单向预测信号被相等加权的传统双向预测情况。对于低延迟而言,仅允许3个权重w∈{3,4,5}。一般来讲,虽然WP与BCW之间存在一些设计上的相似之处,但这两种编解码工具旨在解决不同粒度下的光亮度变化问题。然而,由于WP与BCW之间的交互可能会使VVC设计复杂化,因此不允许同时启用这两个工具。具体地,当针对一个条带启用WP时,则不通过信号发送该条带中所有双向预测CU的BCW权重并将其推断为4(即,应用相等的权重)。
几何分区模式(GPM)的改进
如上所述,用于生成两个GPM分区的预测样点的单向运动直接从常规合并候选中获得。在空间/时间相邻块的MV之间没有强相关性的情况下,从合并候选中导出的单向MV可能不够精确,无法捕捉每个GPM分区的真实运动。运动估计能够提供更精确的运动,然而,由于可以应用于现有单向MV之上的任意运动细化,这种更精确的运动以不可忽视的信令开销为代价。另一方面,MVMD模式被用于VVC和AVS3标准中,这已被证明是一种降低MVD信令开销的有效的信令机制。因此,将GPM与MMVD模式相结合也是有益的。通过提供更精确的MV来捕获每个GPM分区的单独运动,这种组合可以潜在地提高GPM工具的总体编解码效率。
如前所述,在VVC和AVS3标准中,GPM模式仅应用于合并/跳过模式。考虑到所有非合并帧间CU不能从GPM的灵活非矩形分区中受益,这样的设计在编解码效率方面可能不是最优的。另一方面,由于与上述相同的原因,从常规合并/跳过模式导出的单向预测运动候选并不总是精确地捕捉两个几何分区的真实运动。基于这样的分析,通过将GPM模式合理扩展到非合并帧间模式(即,在比特流中显式通过信号发送其运动信息的CU),可以预期额外的编解码增益。然而,MV准确性的提高是以增加信令开销为代价的。因此,为了有效地将GPM模式应用于显式帧间模式,重要的是确定一种有效的信令方案,这种方案可以最小化信令成本,同时为两个几何分区提供更准确的MV。
提出的方法
在本公开中,提出了通过在应用于每个GPM分区的现有单向MV之上应用进一步的运动细化来进一步提高GPM的编解码效率的方法。所提出的这些方法称为具有运动矢量细化的几何分割模式(GPM-MVR)。此外,在所提出的这些方案中,以一种与现有MMVD设计类似的方式通过信号发送运动细化,即,基于预定义的MVD大小和运动细化的方向的集合。
在本公开的一个方面,提供了将GPM模式扩展到显式帧间模式的解决方案。为了便于描述,将这些方案命名为具有显式运动信令的几何分割模式(GPM-EMS)。具体而言,为了实现与常规帧间模式的更好协调,在所提出的GPM-EMS方案中使用了现有的运动信令机制,即MVP加MVD,以指明两个几何分区的对应的单向MV。具有单独运动矢量细化的几何分区模
为了提高GPM的编码效率,在本节中,提出了一种具有单独运动矢量细化的改进的几何分区模式。具体地,给定GPM分区,所提出的方法首先使用现有的语法merge_GPM_idx0和merge_GPM_idx1从现有的单向预测合并候选列表中识别用于两个GPM分区的单向MV,并将它们用作基本MV。在确定了这两个基本MV之后,引入两组新的语法元素来指明分别应用于这两个GPM分区的基本MV之上的运动细化的值。具体地,首先通过信号发送两个标志,即gpm_mvr_partIdx0_enable_flag和gpm_mvr_partIdx1_enable_flag,以指示是否将GPM-MVR分别应用于第一和第二GPM分区。当一个GPM分区的标志等于1时,以MMVD方式通过信号发送应用于该分区的基本MV的该MVR的对应值,即指明该MVR的大小的一个距离索引(如由语法元素gpm_mvr_partIdx0_distance_idx和gpm_mvr_partIdx1_distance_idx所指示的)和指明该MVR的方向的一个方向索引(如由语法元素gpm_mvr_partIdx0_direction_idx和gpm_mvr_partIdx1_distance_idx所指示的)。表4示出了所提出的GPM-MVR方法引入的这些语法元素。在表4中,新添加的语法元素以斜体粗体显示。
表4具有用于两个GPM分区的单独MVR的所提出的GPM-MVR方法的语法元素(方法一)
基于表4所示的提出的语法元素,在解码器处,用于生成每个GPM分区的单向预测样点的最终MV等于通过信号发送的运动矢量细化与相应的基本MV之和。在实践中,可以预定义不同的MVR大小和方向集合,并将其应用于所提出的GPM-MVR方案,这可以在运动矢量精度与信令开销之间提供各种折衷。在一个具体示例中,提出将VVC标准中使用的八个MVD偏移(即,1/4像素、1/2像素、1像素、2像素、4像素、8像素、16像素和32像素)和四个MVD方向(即,+/-x轴和y轴)用于所提出的GPM-MVR方案。在另一示例中,将在AVS3标准中使用的现有的五个MVD偏移{1/4像素、1/2像素、1像素、2像素和4像素}和四个MVD方向(即,+/-x轴和y轴)应用于所提出的GPM-MVR方案中。
如“GPM信令设计”一节所述,由于用于两个GPM分区的单向MV不能相同,因此对现有的GPM设计有了约束,即强制这两个单向预测合并索引不同。然而,在所提出的GPM-MVR方案中,在现有GPM单向MV的基础上应用了进一步的运动细化。因此,即使当两个GPM分区的基本MV相同时,只要两个运动矢量细化的值不相同,用于预测两个分区的最终单向MV仍可能不同。基于上述考虑,当应用所提出的GPM-MVR方案时,取消了这种约束(其限制两个单向预测合并索引不同)。此外,由于允许两个单向预测合并索引相同,因此将同一最大值MaxGPMMergeCand–1用于对merge_gpm_idx0和merge_gpm_idx1进行二值化,其中,MaxGPMMergeCand是该单向预测合并列表中的候选数。
如前面所分析的那样,当两个GPM分区的单向预测合并索引(即,merge_gpm_idx0和merge_gpm_idx1)相同时,这两个运动矢量细化的值不能相同,以确保用于这两个分区的最终MV不同。基于这样的条件,在本公开的一个实施例中,提出了一种信令冗余去除方法,以在两个GPM分区的单向预测合并索引相同时(即,merge_gpm_idx0等于merge_gpm_idx1),使用第一GPM分区的MVR来降低第二GPM分区的MVR的信令开销。在一个示例中,应用以下信令条件:
首先,当标志gpm_mvr_partIdx0_enable_flag等于0(即,GPM-MVR未应用于第一GPM分区)时,不通过信号发送gpm_mvr_partIdx1_enable_flag的标志,而是将其推断为1(即,将GPM-MVR应用于第二GPM分区)。
第二,当标志gpm_mvr_partIdx0_enable_flag和gpm_mvr_partIdx1_enable_flag都等于1(即,GPM-MVR应用于两个GPM分区)并且gpm_mvr_partIdx0_direction_idx等于gpm_mvr_partIdx1_direction_idx(即,两个GPM分区的MVR具有相同的方向)时,第一GPM分区的MVR(即gpm_mvr_partIdx0_distance_idx)的大小用于对第二GPM分区的MVR(即gpm_mvr_partIdx1_distance_idx)的大小进行预测。具体而言,若gpm_mvr_partIdx1_distance_idx小于gpm_mvr_partIdx0_distance_idx,则直接通过信号发送其原始值。否则(gpm_mvr_partIdx1_distance_idx大于gpm_mvr_partIdx0_distance_idx),在被通过信号发送到比特流之前将其值减去1。在解码器侧,为了对gpm_mvr_partIdx1_distance_idx的值进行解码,如果解析的值小于gpm_mvr_partIdx0_distance_idx,则将gpm_mvr_partIdx1_distance_idx设置为等于该解析的值;否则(该解析的值等于或大于gpm_mvr_partIdx0_distance_idx),将gpm_mvr_partIdx1_distance_idx设置为等于该解析值的加1。在这种情况下,为了进一步减少开销,可以将不同的最大值MaxGPMMVRDistance–1和MaxGPMMVRDistance-2用于gpm_mvr_partIdx0_distance_idx和gpm_mvr_partIdx1_distance_idx的二值化,其中,MaxGPMMVRDistance是这些运动矢量细化的允许大小的数量。
在另一个示例中,提出了将信令顺序切换为gpm_mvr_partIdx0_direction_idx/gpm_mvr_partIdx1_direction_idx和gpm_mvr_partIdx0_distance_idx/gpm_mvr_partIdx1_distance_idx,以使这些MVR大小在这些MVR大小之前被通过信号发送。这样,遵循与上述相同的逻辑,编码器/解码器可以使用第一GPM分区的MVR方向来调节第二GPM分区的MVR方向的信令。在另一实施例中,提出了首先通过信号发送第二GPM分区的MVR大小和方向,并使用它们来调节第二GPM分区的MVR大小和方向的信令。
在另一个示例中,提出了在通过信号发送现有的GPM语法元素之前通过信号发送与GPM-MVR相关的语法元素。具体地,在这样的设计中,两个标志gpm_mvr_partIdx0_enable_flag和gpm_mvr_partIdx1_enable_flag首先被通过信号发送,以指示GPM-MVR是否分别应用于第一和第二GPM分区。当一个GPM分区的标志等于1时,距离索引(如语法元素gpm_mvr_partIdx0_distance_idx和gpm_mvr_partIdx1_distance_idx所指示的)和方向索引(如语法元素gpm_mvr_partIdx0_direction_idx和gpm_mvr_partIdx1_distance_idx所指示的)指明该MVR的方向。之后,通过信号发送现有语法merge_gpm_idx0和merge_gpm_idx1,以识别用于两个GPM分区的单向MV,即基于MV。表5示出了所提出的GPM-MVR信令方案。在表5中,新添加的语法元素以斜体粗体显示。
表5具有用于两个GPM分区的单独MVR的所提出的GPM-MVR方法的语法元素(方法二)
类似于表4中的信令方法,当应用表5中的GPM-MVR信令方法时,可以应用某些条件,以确保用于这两个GPM分区的预测的所得到的MV不相同。具体地,根据应用于第一和第二GPM分区的MVR的值,提出以下条件来约束单向预测合并索引merge_gpm_idx0和merge_gpm_idx1的信令:
首先,当gpm_mvr_partIdx0_enable_flag和gpm_mvr_partIdx1_enable_flag的值都等于0(即,GPM-MVR对两个GPM分区都被禁用)时,merge_gpm_idx0和merge_gpm_idx1的值不能相同;
第二,当gpm_mvr_partIdx0_enable_flag等于1(即,为第一GPM分区启用GPM-MVR)且gpm_mvr_partIdx1_enable_flag等于0(即,对第二GPM分区禁用GPM-MVR)时,允许merge_gpm_idx0和merge_gpm_idx1的值相同。
第三,当pm_mvr_partIdx0_enable_flag等于0(即,对第一GPM分区禁用GPM-MVR)且gpm_mvr_partIdx1_enable_flag等于1(即,对第二GPM分区启用GPM-MVR)时,允许merge_gpm_idx0和merge_gpm_idx1的值相同。
第四,当gpm_mvr_partIdx0_enable_flag和gpm_mvr_partIdx1_enable-flag的值都等于1(即,对两个GPM分区都启用了GPM-MVR)时,是否允许merge_gpm_idx0和merge_gpm_idx1的值相同的确定取决于应用于这两个GPM分区的MVR的值(如gpm_mvr_partIdx0_direction_idx和gpm_mvr_partIdx0_distance_idx以及gpm_mvr_partIdx1_direction_idx和gpm_mvr_partIdx1_distance_idx所指示的)。若两个MVR的值相等,则不允许merge_gpm_idx0和merge_gpm_idx1相同。否则(两个MVR的值不相等),允许merge_gpm_idx0和merge_gpm_idx1的值相等。
在上述四种情形中,当不允许merge_gpm_idx0和merge_gpm_idx1的值相同时,一个分区的索引值可以用作另一个分区索引值的预测值。在一种方法中,提出了首先发通过信号发送merge_gpm_idx0,并使用其值来预测merge_gpm_idx1。具体地,在编码器处,当merge_gpm_idx1大于merge_gpm_idx0时,发送到解码器的merge_gpm_idx1的值减1。在解码器处,当接收到的merge_gpm_idx1的值等于或大于接收到的merge_gpm_idx0的值时,merge_gpm_idx1的值加1。在另一种方法中,提出了首先通过信号发送merge_gpm_idx1,并使用其值来预测merge_gpm_idx0。因此,在这种情况下,在编码器处,当merge_gpm_idx0大于merge_gpm_idx1时,发送到解码器的merge_gpm_idx0的值减1。在解码器处,当接收到的merge_gpm_idx0的值等于或大于接收到的merge_gpm_idx1的值时,merge_gpm_idx0的值加1。此外,与现有的GPM信令设计类似,不同的最大值MaxGPMMergeCand–1和MaxGPMMergeCand–2可分别用于根据信令顺序对第一和第二索引值进行二值化。另一方面,在由于这两个索引值之间没有相关性而允许merge_gpm_idx0和merge_gpm_idx1的值相同时,同一最大值MaxGPMMergeCand–1用于两个索引的二值化。
在上述方法中,为了降低信令成本,可以将不同的最大值应用于merge_gpm_idx0和merge_gpm_idx1的二值化。相应最大值的选择取决于这些MVR的解码值(如gpm_mvr_partIdx0_enable,gpm_mvr_partIdx1_enable,gpm_mvr_partIdx0_direction_idx,gpm_mvr_partIdx1_direction_idx,gpm_mvr_partIdx0_distance_idx和gpm_mvr_partIdx1_distance_idx_所指示的)。这种设计在不同的GPM语法元素之间引入了并不需要的解析依赖性,这可能会影响整个解析。为了解决这样的问题,在一个实施例中,提出了始终使用同一个最大值(如MaxGPMMergeCand-1)来解析merge_gpm_idx0和merge_gpm_idx1的值。当使用这种方法时,可以使用一个比特流一致性约束来防止两个GPM分区的两个解码的MV相同。在另一种方法中,还可以移除这种非身份约束,从而允许两个GPM分区的解码的MV相同。另一方面,当应用这种方法时(即,对merge_gpm_idx0和merge_gpm_idx1使用相同的最大值),merge_gpmidx0/merge_gpm_idx1与其他GPM-MVR语法元素之间不存在解析依赖性。因此,通过信号发送这些语法元素的顺序不再重要。在一个示例中,提出了将merge_gpm_idx0/merge_gpm_idx1的信令移动到gpm_mvr_partIdx0_enable,gpm_mvr_partIdx1_enable,gpm_mvr_partIdx0_direction_idx,gpm_mvr_partIdx1_direction_idx,gpm_mvr_partIdx0_distance_idx和gpm_mvr_partIdx1_distance_idx的信令之前。
具有对称运动矢量细化的几何分区模式
对于上面讨论的GPM-MVR方法,通过信号发送两个单独的MVR值,其中一个仅用于改进一个GPM分区的基本MV。通过允许对每个GPM分区进行独立的运动细化,这种方法在提高预测精度方面是有效的。然而,考虑到需要从编码器到解码器发送两组不同的GMP-MVR语法元素,这种灵活的运动细化以增加信令开销为代价。为了降低信令开销,在本节中提出了一种具有对称运动矢量细化的几何分区模式。具体地,在该方法中,根据当前图片的图片顺序计数(POC)值与和两个GPM分区相关联的参考图片之间的对称关系,为一个GPM CU通过信号发送一个单一MVR值,并将其用于两个GPM分区。表6示出了应用所提出的方法时的语法元素。在表6中,新添加的语法元素以斜体粗体显示。
表6具有用于两个GPM分区的对称MVR的所提出的GPM-MVR方法的语法元素(方法一)
如表6所示,在(基于merge_gpm_idx0和merge_gpm_idx1)选择两个GPM分区的基本MV之后,通过信号发送一个标志gpm_mvr_enable_flag,以指示GPM-MVR模式是否应用于当前GPM CU。当该标志等于1时,它指示应用运动细化来增强两个GPM分区的基本MV。否则(当该标志等于零时),指示运动细化不应用于两个分区中的任何一个。如果启用了GPM-MVR模式,则进一步通过信号发送附加语法元素,以通过方向索引gpm_mvr_direction_idx和大小索引gpm_mvr_distance_idx指定所应用MVR的值。此外,类似于MMVD模式,MVR符号的含义可根据当前图片的POC与GPM分区的两个参考图片之间的关系而变化。具体地,当两个参考图片的两个POC均大于或小于当前图片的POC时,通过信号发送的符号是添加到两个基本MV的MVR的符号。否则(当一个参考图片的POC大于当前图片的POC而另一个参考图像的POC小于当前图片的POC时),通过信号发送的符号应用于第一GPM分区的MVR,而相反的符号被应用到第二GPM分区。在表6中,允许merge_gpm_idx0和merge_gpm_idx1的值相同。
在另一个示例中,提出了通过信号发送两个不同的标志,以分别控制两个GPM分区的GPM-MVR模式的启用/禁用。然而,当启用GPM-MVR模式时,基于语法元素gpm_mvr_direction_idx和gpm_mvr_distance_idx仅通过信号发送一个MVR。这种信令方法的对应语法表在表7中示出。在表7中,新添加的语法元素以斜体粗体显示。表7具有用于两个GPM分区的对称MVR的所提出的GPM-MVR方法的语法元素(方法二)
当应用表7中的信令方法时,允许merge_gpm_idx0和merge_gpm_idx1的值相同。然而,为了确保应用于两个GPM分区的所得到的MV不是冗余的,当标志gpm_mvr_partIdx0_enable_flag等于0(即,GPM-MVR未应用于第一GPM分区)时,标志gpm_mvr_partIdx1_enable_flag不被通过信号发送,而是被推断为1(即,将GPM-MVR应用于第二GPM分区)。
用于GPM-MVR的允许的MVR的适配
在上述GPM-MVR方法中,一组固定的MVR值用于一个视频序列中编码器和解码器的GPM CU。这种设计对于具有高分辨率或剧烈运动的视频内容来说不是最优的。在这些情况下,MV往往很大,以使固定的MVR值可能不是捕捉这些块的真实运动的最佳值。为了进一步提高GPM-MVR模式的编解码性能,在本公开中提出支持允许GPM-MVR模式以各个编解码级别(如序列级别、图片/条带图片、编码块组级别等)选择的MVR值的适配。例如,可以根据不同视频序列的特定运动特性离线导出多个MVR集合以及对应的码字。编码器可以选择最佳MVR集合,并将所选集合的对应索引通过信号发送给解码器。
用于GPM-MVR率失真优化的编码器加速逻辑
对于所提出的GPM-MVR方案,为了确定用于每个GPM分区的最佳MVR,编码器可能需要多次测试每个GPM分区的率失真成本,每次都会改变所应用的MVR值。这会显著增加GPM模式的编码复杂性。为了解决编码复杂性问题,本节提出了以下快速编码逻辑:
首先,由于VVC和AVS3中应用了四叉树/二叉树/三叉树块分区结构,在率失真优化(RDO)过程中可以检查同一编码块,每次通过一个不同的分区路径进行划分。在当前VTM/HPM编码器实现中,每当通过不同块分区组合获得同一个CU时,总是测试GPM和GPM-MVR模式以及其他帧间和帧内编码模式。一般来讲,对于不同的分区路径,只有一个CU的相邻块可能不同,然而,这对一个CU将选择的最佳编码模式的影响相对较小。基于这样的考虑,为了减少正在应用的GPM RDO的总数,提出了在第一次检查一个CU的RD成本时存储是否选择GPM模式的决定。此后,当RDO过程再次(通过另一分区路径)检查同一CU时,仅当第一次为CU选择GPM时,才检查GPM(包括GPM-MVR)的RD成本。如果没有为一个CU的初始RD检查选择GPM,则当通过另一个分区路径实现同一CU时,仅测试GPM(而无GPM-MVR)。在另一种方法中,当未选择GPM用于一个CU的初始RD检查时,当通过另一个分区路径实现同一CU时,不测试GPM和GPM-MVR。
在另一种方法中,当同一CU被多次编码时,应用一种软判决方法来跳过GPM(包括GPM-MVR)RD检查。例如,当该CU第一次被编码时,编码器可以将GPM模式(包括GPM-MVR)的RD成本与最佳模式的成本进行比较。然后,当通过另一分区路径对同一CU进行编码时,仅当在第一路径中GPM RD成本不低于最佳模式的RD成本乘以一个阈值时,才进行GPM模式(包括GPM-MVR)的RD检查。
其次,为了减少GPM-MVR模式的GPM分区的数量,提出了在第一次检查一个CU的RD成本时,保持前M个GPM分区模式,而无最小的RD成本。之后,当RDO进程再次(通过另一个分区路径)检查同一CU时,仅测试用于GPM-MVR模式的M个GPM分区模式。
第三,为了减少初始RDO过程测试的GPM分区的数量,对于每个GPM分区,提出了在使用两个GPM分区不同的单向预测合并候选时,首先计算和绝对差(SAD)值。然后,对于一个特定分区模式下的每个GPM分区,选择具有最小SAD值的最佳单向预测合并候选,并计算分区模式的对应SAD值,该值等于两个GPM分区的最佳单向预测合并候选的SAD值之和。然后,对于接下来的RD过程,对于GPM-MVR模式,仅测试用于前一步骤的具有最佳SAD值的前N个分区模式。
具有显式运动信令的几何分区
在本节中,提出了多种方法来将GPM模式扩展到常规帧间模式的双向预测,其中GPM模式的两个单向MV从编码器通过信号明确地发送到解码器。
在第一个解决方案(解决方案一)中,提出了充分重用现有的双向预测运动信令来通过信号发送GPM模式的这两个单向MV。表8示出了所提出方案的修改的语法表,其中新添加的语法元素用斜体粗体表示。如表8所示,在该解决方案中,信令L0和L1运动信息的所有现有语法元素被完全重用,以分别指示两个GPM分区的单向MV。此外,假设L0 MV总是与第一GPM分区关联,并且L1 MV总是与第二GPM分区关联。另一方面,在表8中,在GPM标志(即,gpm_flag)之前通过信号发送帧间预测语法,即iinter_pred_idc,以使inter_pred_idc的值可用于调节gpm_flag的存在。具体地,仅当inter_pred_idc等于PRED_BI(即,双向预测)并且inter_affine_flag和sym_mvd_flag都等于0(即,既不通过仿射模式也不通过SMVD模式将该CU编码)时,才需要通过信号发送标志gpm_flag。当标志gpm_flag未被通过信号发送时,其值总是被推断为0(即,GPM模式被禁用)。当gpm_flag为1时,进一步通过信号发送另一语法元素gpm_partition_idx,以指示用于当前CU的(总共64个GPM分区中)所选的GPM模式。
表8解决方案一(选项一)的运动信令的修改语法表
在另一方法中,提出了将标志gpm_flag的信令置于其他帧内信令语法元素之前,以使gpm_flag的值能够用于确定其他的这些帧内语法元素是否需要存在。表9示出了应用这种方法时的对应语法表,其中,新添加的语法元素为斜体粗体。可以看出,在表9中,首先通过信号发送gpm_flag。当gpm_flag等于1时,可以绕过inter_pred_idc,inter_affine_flag和sym_mvd_flag的相应信令。可选地或附加地,三个语法元素的对应值可以分别推断为PRED_BI、0和0。
表9解决方案一(选项二)的运动信令的修改语法表
在表8和表9中,SMVD模式不能与GPM模式组合。在另一示例中,提出了在当前CU被GPM模式编码时允许SMVD模式。当允许这种组合时,通过遵循SMVD的相同设计,假设两个GPM分区的MVD是对称的,以使仅需要通过信号发送第一GPM分区的MVD,并且第二GPM分区的MVD总是与第一MVD对称。当应用这种方法时,可以去除gpm_flag上的sym_mvd_flag的相应信令条件。
如上所述,在第一种解决方案中,总是假设L0 MV用于第一GPM分区且L1 MV用于第二GPM分区。这种设计可能不是最佳的,因为这种方法禁止两个GPM分区的MV来自同一预测列表(L0或L1)。为了解决这一问题,提出了一种替代的GPM-EMS方案,即解决方案二,其信令设计如表10所示。在表10中,新添加的语法元素以斜体粗体显示。如表10所示,首先通过信号发送标志gpm_flag。当该标志等于1(即,启用GPM)时,通过信号发送语法gpm_partition_idx以指定所选的GPM模式。然后,通过信号发送一个附加标志gpm_pred_dir_flag0,以指示第一GPM分区的MV来自的对应预测列表。当标志gpm_pred_dir_flag0等于1时,表示第一GPM分区的MV来自L1;否则(该标志等于0),则表示第一GPM分区的MV来自L0。之后,利用现有语法元素ref_idx_l0,mvp_l0_flag和mvd_coding()来通过信号发送参考图片索引、mvp索引和第一GPM分区的MVD的值。另一方面,与第一个分区类似,引入另一个语法元素gpm_pred_dir_flag1来选择第二GPM分区的对应预测列表,然后是现有语法ref_idx_l1,mvp_l1_flag和mvd_coding(),用于导出第二GPM分区的MV。
表10解决方案二的运动信令的修改语法表
最后,应提及的是,鉴于GPM模式由两个单向预测分区组成(分割边缘上的混合样点除外),VVC和AVS3中的一些现有编解码工具专门设计用于双向预测,如双向光流,当针对一个帧内CU启用所提出的GPM-EMS方案时,可以自动绕过解码器侧运动矢量细化(DMVR)和具有CU权重的双向预测(BCW)。例如,在为一个CU启用提出的一个GPM-EMS时,鉴于BCW不能用于GPM模式,无需进一步为该CU通过信号发送相应的BCW权重。
GPM-MVR和GPM-EMS的结合
在本节中,提出了将用于一个CU的GPM-MVR和GPM-EMS与几何分区相结合。具体地,与其中基于合并的运动信令或显式信令中的仅一个可以被应用来通过信号发送两个GPM分区的单向预测MV的GPM-MVR或GPM-EMS不同,在所提出的方案中,它允许1)使用基于GPM-MVR的运动信令的一个分区和使用基于GPM-EMS的运动信令的另一个分区;或2)使用基于GPM-MVR的运动信令的两个分区;或3)使用基于GPM-EMS的运动信令的两个分区。使用表4中的GPM-MVR信令和表10中的GPM-EMS,表11示出了所提出的GPM-MV和GPM-EMS组合后的对应语法表。在表11中,新添加的语法元素以斜体粗体显示。如表11所示,分别为分区#1和#2引入了两个附加语法元素gpm_merge_flag0和gpm_merge_flag1,它们指定相应的分区使用基于GPM-MVR的合并信令或基于GPM-EMS的显式信令。当该标志为1时,意味着为一个分区启用GPM-MVR基础信令,该分区的GPM单向预测运动将通过merge_gpm_idxX、gpm_mvr_partIdxX_enabled_flag、gpm_mvr_partIdxX_direction_idx和gpm_mvr_partIdxX_distance_idx被发送,其中,X=0,1。否则,如果该标志为零,则意味着将使用语法元素GPM_pred_dir_flagX、ref_idx_lX、mvp_lX_flag和mvd_lX(其中,X=0,1)以GPM-EMS方式明确地通过信号发送该分区的单向预测运动。
表11用于具有GPM-MVR和GPM-EMS的组合的GPM模式的提出的语法表
可以使用包括一个或多个电路的装置来实现上述这些方法,这些电路包括专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件。该装置可以使用与其它硬件或软件组件相结合的电路来执行上述方法。可以至少部分地使用一个或多个电路来实现上面公开的每个模块、子模块、单元或子单元。
图9示出了与用户接口960耦合的计算环境(或计算设备)910。计算环境910可以是数据处理服务器的一部分。在一些实施例中,根据本公开的各种示例,计算设备910可以执行如上所述的各种方法或过程(例如编码/解码方法或过程)中的任何一种。计算环境910可包括处理器920、存储器940和I/O接口950。
处理器920通常控制计算环境910的整体操作,例如与显示、数据采集、数据通信和图像处理相关的操作。处理器920可包括一个或多个处理器以执行指令以执行上述方法中的所有或一些步骤。此外,处理器920可以包括促进处理器920与其它组件之间的交互的一个或多个模块。处理器可以是中央处理器(CPU)、微处理器、单片机、GPU等。
存储器940被配置为存储各种类型的数据以支持计算环境910的操作。存储器940可以包括预定软件942。这种数据的示例包括用于在计算环境910上操作的任何应用程序或方法的指令、视频数据集、图像数据等。存储器940可以通过使用任何类型的易失性或非易失性存储设备或其组合来实现,例如静态随机存取存储器(SRAM)、电可擦可编程只读存储器存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。
I/O接口950提供处理器920与外围接口模块之间的接口,如键盘、点击轮、按键等。按键可以包括但不限于主页按键、开始扫描按键和停止扫描按键。I/O接口950可以与编码器和解码器耦合。
在一个实施例中,还提供了一种非暂时性计算机可读存储介质,其包括多个程序,如包括在存储器940中的程序,并且可由计算环境910中的处理器920执行,以执行上述方法。例如,非暂态计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等。
非暂时性计算机可读存储介质中存储了多个程序,供具有一个或多个处理器的计算设备执行,其中,当由一个或多个处理器执行时,所述多个程序使该计算设备执行上述对于运动预测的方法。
在一些实施例中,计算环境910可以用一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、控制器、微控制器、微处理器来实现,以执行上述方法。
图7是示出了根据本公开的示例的解码处于GPM的视频块的方法的流程图。
在步骤701中,处理器920可将视频块划分为第一几何分区和第二几何分区。
在步骤702中,处理器920可获得针对第一几何分区的第一预测列表,并获得针对第二几何分区的第二预测列表。
在一些示例中,第一预测列表可以是列表L0,第二预测列表可以是列表L1。
在步骤703中,处理器920可通过基于所述第一预测列表和所述第二预测列表向该第一几何分区和第二几何分区应用具有EMS的GPM来获得针对该第一几何分区的MV和第二几何分区的MV。
在一些示例中,向该第一几何分区和第二几何分区应用具有EMS的GPM可根据表10所示的解决方案二来实现。
在一些示例中,处理器920可接收针对该第一几何分区的一个或更多个第一语法元素。所述一个或更多个第一语法元素可包括参考图片索引语法元素ref_idx_l0、MVP索引标志mvp_l0_flag和第一MVD编解码语法元素mvd_coding,其中,参考图片索引ref_idx_l0指示该第一几何分区的参考图片索引,该MVP索引标志mvp_l0_flag指示该第一几何分区的MVP索引,并且该第一MVD编解码语法元素mvd_coding指示该第一几何分区的MVD。
在一些示例中,处理器920可接收针对该第二几何分区的一个或更多个第二语法元素。所述一个或更多个第一语法元素可包括参考图片索引语法元素ref_idx_l1、运动矢量预测(MVP)索引标志mvp_l1_flag和第二MVD编解码语法元素mvd_coding,其中,参考图片索引ref_idx_l1指示该第二几何分区的参考图片索引,该MVP索引标志mvp_l1_flag指示该第二几何分区的MVP索引,并且该第二MVD编解码语法元素mvd_coding指示该第二几何分区的MVD。
在一些示例中,处理器920可通过接收第一GPM预测方向标志gpm_pred_dir_flag0并接收第二GPM预测方向标志gpm_pred_dir_flag1来获得该第一几何分区的该第一预测列表和该第二几何分区的第二预测列表,其中,该第一GPM预测方向标志gpm_pred_dir_flag0可指示对应的预测列表,该第一几何分区的MV来自该预测列表,并且该第二GPM预测方向标志gpm_pred_dir_flag1指示对应的预测列表,该第二几何分区的MV来自该预测列表。
在一些示例中,响应于确定该第一GPM预测方向标志gpm_pred_dir_flag0等于1,处理器920可确定该第一几何分区的MV来自列表L1,并且响应于确定该第一GPM预测方向标志gpm_pred_dir_flag0等于0,确定该第一几何分区的MV来自列表L0。
在一些示例中,响应于确定该第二GPM预测方向标志gpm_pred_dir_flag1等于1,处理器920可确定该第二几何分区的MV来自列表L0,并且响应于确定该第二GPM预测方向标志gpm_pred_dir_flag1等于0,确定该第二几何分区的MV来自列表L1。
在一些示例中,向该第一几何分区和第二几何分区应用具有EMS的GPM可根据表8所示的解决方案一(选项一)和表9所示的解决方案一(选项二)来实现。
在一些示例中,处理器920可接收作为GPM标志gpm_flag的条件的一个或更多个语法元素。该GPM标志可指示是否为该第一或第二几何分区启用GPM模式。
在一些示例中,该一个或更多个语法元素可包括指示是否应用双向预测的帧间预测语法元素inter_pred_idc和指示该视频块是否被通过仿射模式编码的仿射模式语法元素inter_affine_flag。响应于确定帧间预测语法元素inter_pred_idc指示应用了该双向预测并且仿射模式语法元素inter_affine_flag指示该视频块未被通过仿射模式编码,处理器920可接收该GPM标志gpm_flag。
在一些示例中,该一个或更多个语法元素还可包括指示该视频块是否被通过SMVD模式编码的对称运动矢量差(SMVD)语法元素sym_mvd_flag。响应于确定帧间预测语法元素inter_pred_idc指示应用了该双向预测、仿射模式语法元素inter_affine_flag指示该视频块未被通过仿射模式编码并且SMVD语法元素sym_mvd_flag指示该视频块未被通过该SMVD模式编码,处理器920可接收GPM标志gpm_flag。
在一些示例中,响应于确定GPM标志gpm_flag等于1,处理器920可接收指示该视频块的所选GPM模式的GPM分区语法元素gpm_partition_idx。
在一些示例中,响应于确定没有通过信号发送该GMP标志gpm_flag,处理器920可推断GMP标志gpm_flag的值等于0。
在一些示例中,处理器920可接收作为一个或更多个语法元素的条件的GPM标志gpm_flag,其中,该GPM标志gpm_flag指示是否为该第一几何分区或第二几何分区启用GPM模式。该一个或更多个语法元素可包括指示是否应用双向预测的帧间预测语法元素inter_pred_idc和指示该视频块是否被通过仿射模式编码的仿射模式语法元素inter_affine_flag。
在一些示例中,响应于确定GPM标志gpm_flag等于1,处理器920可绕过帧间预测语法元素inter_pred_idc和仿射模式语法元素inter_affine_flag。
在一些示例中,该一个或更多个语法元素还可包括指示该视频块是否被通过SMVD模式编码的对称运动矢量差(SMVD)语法元素sym_mvd_flag。响应于确定GPM标志gpm_flag等于1,处理器920可绕过帧间预测语法元素inter_pred_idc、仿射模式语法元素inter_affine_flag以及SMVD语法元素sym_mvd_flag。
在一些示例中,响应于确定GMP标志gpm_flag等于1,处理器920可将帧间预测语法元素inter_pred_idc推断为指示应用了双向预测的PRED_BI,将仿射模式语法元素inter_affine_flag推断为指示该视频块未被通过仿射模式编码的0,并且将SMVD语法元素sym_mvd_flag推断为指示该视频块未被通过SMVD模式编码的0。
在步骤704中,处理器920可基于这些MV获得第一几何分区的预测样点和第二几何分区的预测样点。
图8是根据本公开的一个示例的解码处于GPM模式的视频块的方法。
在步骤801中,处理器920可将视频块划分为第一和第二几何分区。
在步骤802中,处理器920可获得该第一几何分区的第一预测列表并获得该第二几何分区的第二预测列表。
在一些示例中,该第一预测列表可以是列表L0,并且该第二预测列表可以是列表L1。
在步骤803中,处理器920可通过基于该第一预测列表和该第二预测列表向该第一几何分区和该第二几何分区应用具有MVR的GPM或具有EMS的GPP来获得针对该第一几何分区的MV和针对第二几何分区的MV。
在一些示例中,处理器920可通过以下步骤获得针对该第一和第二几何分区的MV:基于该第一和第二预测列表,将具有MVR的该GPM应用于该第一和第二几何分区;基于该第一和第二预测列表,将具有EMS的该GPM应用于该第一和第二几何分区;或者基于该第一和第二预测列表,将具有MVR的该GPM应用于该第一或第二几何分区,并且将具有EMS的该GPM应用于该第二或第一几何分区。
在一些示例中,处理器920可进一步接收用于该第一几何分区的第一GPM合并标志gpm_merge_flag0,以指定将具有MVR的该GPM或具有EMS的该GPM应用于该第一几何分区,年轻接收用于该第二几何分区的第二GPM合并标志gpm_merge_flag1,以指定将具有MVR的该GPM或具有EMS的该GPM应用于该第二几何分区。
在一些示例中,响应于确定该第一GPM合并标志gpm_merge_flag0等于1,处理器920可进一步为该第一几何分区启用具有MVR的该GPM,并接收用于该第一几何分区的多个第一语法元素,其中,该多个第一语法元素可包括merge_gpm_idx0、gpm_mvr_partIdx0_enabled_flag、gpm_mvr_partIdx0_direction_idx和gpm_mvr_partIdx0_distance_idx。
在一些示例中,响应于确定该第一GPM合并标志gpm_merge_flag0等于0,处理器920可进一步为该第一几何分区启用具有EMS的该GPM,并显式地接收用于该第一几何分区的多个第二语法元素,其中,该多个第二语法元素包括GPM预测方向标志gpm_pred_dir_flag0、参考图片索引ref_idx_l0、运动矢量预测(MVP)索引标志mvp_l0_flag以及mvd_l0。
在一些示例中,响应于确定该第二GPM合并标志gpm_merge_flag1等于1,处理器920可进一步为该第二几何分区启用具有MVR的该GPM,并接收用于该第二几何分区的多个第一语法元素,其中,该多个第一语法元素包括merge_gpm_idx1、gpm_mvr_partIdx1_enabled_flag、gpm_mvr_partIdx1_direction_idx和gpm_mvr_partIdx1_distance_idx。
在一些示例中,响应于确定该第二GPM合并标志gpm_merge_flag1等于0,处理器920可进一步为该第二几何分区启用具有EMS的该GPM,并显式地接收用于该第二几何分区的多个第二语法元素,其中,该多个第二语法元素包括GPM预测方向标志gpm_pred_dir_flag1、参考图片索引ref_idx_l1、运动矢量预测(MVP)索引标志mvp_l1_flag以及mvd_l1。
在步骤804中,处理器920可基于这些MV获得第一几何分区的预测样点和第二几何分区的预测样点。
在一些示例中,提供了一种用于以GPM对视频块进行解码的装置。该装置包括处理器920和存储器940,存储器940被配置为存储可由该处理器执行的指令;其中,该处理器在执行这些指令时被配置为执行如图7或8所示的方法。
在一些其他示例中,提供了一种非暂时性计算机可读存储介质,其中存储有指令。当由处理器920执行时,这些指令使该处理器执行如图7或8所示的方法。
本领域技术人员通过考虑此处公开的说明书和实践,将清楚本公开的其他示例。本申请旨在涵盖遵循其一般原则的本公开的任何变化、使用或适应性改变,并包括在本领域已知或习惯实践范围内的与本公开的偏离。本说明书和示例仅被视为示例性的。
应当理解,本公开不限于上述和附图中所示的确切示例,并且可以在不偏离本发明的范围的情况下进行各种修改和改变。

Claims (22)

1.一种用于解码处于几何分区模式GPM的视频块的方法,包括:
将视频块划分为第一几何分区和第二几何分区;
获得针对所述第一几何分区的第一预测列表并获得针对所述第二几何分区的第二预测列表;
通过基于所述第一预测列表和所述第二预测列表向所述第一几何分区和所述第二几何分区应用具有显式运动信令EMS的GPM来获得针对所述第一几何分区的运动矢量MV和针对所述第二几何分区的运动矢量MV;以及
基于针对所述第一几何分区的运动矢量MV和针对所述第二几何分区的运动矢量MV获得所述第一几何分区的预测样点和所述第二几何分区的预测样点。
2.根据权利要求1所述的方法,其中,应用具有EMS的GPM还包括:
接收针对所述第一几何分区的一个或更多个第一语法元素,包括参考图片索引语法元素ref_idx_l0、运动矢量预测MVP索引标志mvp_l0_flag和第一运动矢量差MVD编解码语法元素mvd_coding,其中,所述参考图片索引ref_idx_l0指示所述第一几何分区的参考图片索引,所述MVP索引标志mvp_l0_flag指示所述第一几何分区的MVP索引,并且所述第一MVD编解码语法元素mvd_coding指示所述第一几何分区的MVD;以及
接收针对所述第二几何分区的一个或更多个第二语法元素,包括参考图片索引语法元素ref_idx_l1、运动矢量预测MVP索引标志mvp_l1_flag和第二MVD编解码语法元素mvd_coding,其中,所述参考图片索引ref_idx_l1指示所述第二几何分区的参考图片索引,所述MVP索引标志mvp_l1_flag指示所述第二几何分区的MVP索引,并且所述第二MVD编解码语法元素mvd_coding指示所述第二几何分区的MVD。
3.根据权利要求1所述的方法,其中,所述第一预测列表是列表L0,并且所述第二预测列表是列表L1。
4.根据权利要求3所述的方法,其中,获得针对所述第一几何分区的所述第一预测列表并获得针对所述第二几何分区的所述第二预测列表还包括:
接收第一GPM预测方向标志gpm_pred_dir_flag0,所述第一GPM预测方向标志gpm_pred_dir_flag0指示所述第一几何分区的MV来自的对应预测列表;以及
接收第二GPM预测方向标志gpm_pred_dir_flag1,所述第二GPM预测方向标志gpm_pred_dir_flag1指示所述第二几何分区的MV来自的对应预测列表。
5.根据权利要求4所述的方法,还包括:
响应于确定所述第一GPM预测方向标志gpm_pred_dir_flag0等于1,确定所述第一几何分区的MV来自列表L1;以及
响应于确定所述第一GPM预测方向标志gpm_pred_dir_flag0等于0,确定所述第一几何分区的MV来自列表L0。
6.根据权利要求4所述的方法,还包括:
响应于确定所述第二GPM预测方向标志gpm_pred_dir_flag1等于1,确定所述第二几何分区的MV来自列表L0;以及
响应于确定所述第二GPM预测方向标志gpm_pred_dir_flag1等于0,确定所述第二几何分区的MV来自列表L1。
7.根据权利要求1所述的方法,还包括:
接收作为GPM标志gpm_flag的条件的一个或更多个语法元素,所述GPM标志gpm_flag指示针对所述第一几何分区或所述第二几何分区是否启用GPM模式。
8.根据权利要求7所述的方法,其中,所述一个或更多个语法元素包括指示是否应用双向预测的帧间预测语法元素inter_pred_idc和指示是否通过仿射模式来编码所述视频块的仿射模式语法元素inter_affine_flag,
其中,所述方法还包括:
响应于确定所述帧间预测语法元素inter_pred_idc指示应用所述双向预测并且所述仿射模式语法元素inter_affine_flag指示不通过所述仿射模式来编码所述视频块,接收所述GPM标志gpm_flag。
9.根据权利要求8所述的方法,其中,所述一个或更多个语法元素还包括指示是否通过对称运动矢量差SMVD模式来编码所述视频块的SMVD语法元素sym_mvd_flag,
其中,所述方法还包括:
响应于确定所述帧间预测语法元素inter_pred_idc指示应用所述双向预测、所述仿射模式语法元素inter_affine_flag指示不通过所述仿射模式来编码所述视频块,并且所述SMVD语法元素sym_mvd_flag指示不通过所述SMVD模式来编码所述视频块,接收所述GPM标志gpm_flag。
10.根据权利要求9所述的方法,还包括:
响应于确定所述GPM标志gpm_flag等于1,接收指示针对所述视频块的所选GPM模式的GPM分区语法元素gpm_partition_idx。
11.根据权利要求9所述的方法,还包括:
响应于确定没有通过信号发送所述GMP标志gpm_flag,推断所述GMP标志gpm_flag的值等于0。
12.根据权利要求1所述的方法,还包括:
接收作为一个或更多个语法元素的条件的GPM标志gpm_flag,其中,所述GPM标志gpm_flag指示针对所述第一几何分区或第二几何分区是否启用GPM模式。
13.根据权利要求12所述的方法,其中,所述一个或更多个语法元素包括指示是否应用双向预测的帧间预测语法元素inter_pred_idc和指示是否通过仿射模式来编码所述视频块的仿射模式语法元素inter_affine_flag,并且;
其中,所述方法还包括:
响应于确定所述GPM标志gpm_flag等于1,绕过所述帧间预测语法元素inter_pred_idc和所述仿射模式语法元素inter_affine_flag。
14.根据权利要求13所述的方法,其中,所述一个或更多个语法元素还包括指示是否通过对称运动矢量差SMVD模式来编码所述视频块的SMVD语法元素sym_mvd_flag,并且
其中,所述方法还包括:
响应于确定所述GPM标志gpm_flag等于1,绕过所述帧间预测语法元素inter_pred_idc、所述仿射模式语法元素inter_affine_flag以及所述SMVD语法元素sym_mvd_flag。
15.根据权利要求14所述的方法,还包括:
响应于确定所述GMP标志gpm_flag等于1,将所述帧间预测语法元素inter_pred_idc推断为指示应用双向预测的PRED_BI,将所述仿射模式语法元素inter_affine_flag推断为指示不通过仿射模式来编码所述视频块的0,并且将所述SMVD语法元素sym_mvd_flag推断为指示不通过所述SMVD模式来编码所述视频块的0。
16.一种解码处于几何分区模式GPM的视频块的方法,包括:
将视频块划分为第一几何分区和第二几何分区;
获得针对所述第一几何分区的第一预测列表并获得针对所述第二几何分区的第二预测列表;
通过基于所述第一预测列表和所述第二预测列表向所述第一几何分区和所述第二几何分区应用具有运动矢量细化MVR的GPM或具有显式运动信令EMS的GPM来获得针对所述第一几何分区的运动矢量MV和针对第二几何分区的运动矢量MV;以及
基于针对所述第一几何分区的运动矢量MV和针对所述第二几何分区的运动矢量MV获得所述第一几何分区的预测样点和所述第二几何分区的预测样点。
17.根据权利要求16所述的方法,还包括通过以下方式获得针对所述第一几何分区的MV和针对所述第二几何分区的MV:
基于所述第一预测列表和所述第二预测列表,向所述第一几何分区和所述第二几何分区应用所述具有MVR的GPM;
基于所述第一预测列表和所述第二预测列表,向所述第一几何分区和所述第二几何分区应用所述具有EMS的GPM;或者
基于所述第一预测列表和所述第二预测列表,向所述第一几何分区或所述第二几何分区应用所述具有MVR的GPM,并且向所述第二几何分区或所述第一几何分区应用所述具有EMS的GPM。
18.根据权利要求17所述的方法,还包括:
接收针对所述第一几何分区的第一GPM合并标志gpm_merge_flag0,以指定将所述具有MVR的GPM或所述具有EMS的GPM应用于所述第一几何分区;以及
接收针对所述第二几何分区的第二GPM合并标志gpm_merge_flag1,以指定将所述具有MVR的GPM或所述具有EMS的GPM应用于所述第二几何分区。
19.根据权利要求18所述的方法,还包括:
响应于确定所述第一GPM合并标志gpm_merge_flag0等于1,针对所述第一几何分区启用所述具有MVR的GPM,并接收针对所述第一几何分区的多个第一语法元素,其中,所述多个第一语法元素包括merge_gpm_idx0、gpm_mvr_partIdx0_enabled_flag、gpm_mvr_partIdx0_direction_idx和gpm_mvr_partIdx0_distance_idx;以及
响应于确定所述第一GPM合并标志gpm_merge_flag0等于0,针对所述第一几何分区启用所述具有EMS的GPM,并显式地接收针对所述第一几何分区的多个第二语法元素,其中,所述多个第二语法元素包括GPM预测方向标志gpm_pred_dir_flag0、参考图片索引ref_idx_l0、运动矢量预测MVP索引标志mvp_l0_flag以及mvd_l0。
20.根据权利要求18所述的方法,还包括:
响应于确定所述第二GPM合并标志gpm_merge_flag1等于1,针对所述第二几何分区启用所述具有MVR的GPM,并接收针对所述第二几何分区的多个第一语法元素,其中,所述多个第一语法元素包括merge_gpm_idx1、gpm_mvr_partIdx1_enabled_flag、gpm_mvr_partIdx1_direction_idx和gpm_mvr_partIdx1_distance_idx;以及
响应于确定所述第二GPM合并标志gpm_merge_flag1等于0,针对所述第二几何分区启用所述具有EMS的GPM,并显式地接收针对所述第二几何分区的多个第二语法元素,其中,所述多个第二语法元素包括GPM预测方向标志gpm_pred_dir_flag1、参考图片索引ref_idx_l1、运动矢量预测MVP索引标志mvp_l1_flag以及mvd_l1。
21.一种用于视频编解码的装置,包括:
一个或多个处理器;以及
非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质被配置为存储能够由所述一个或多个处理器执行的指令;其中,在执行所述指令时,所述一个或多个处理器被配置为执行根据权利要求1-20中任一项所述的方法。
22.一种存储计算机可执行指令的非暂时性计算机可读存储介质,当由一个或多个计算机处理器执行时,所述指令使所述一个或多个计算机处理器执行根据权利要求1-20中任一项所述的方法。
CN202280026872.8A 2021-04-09 2022-04-11 具有显式运动信令的几何分区模式 Pending CN117121482A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163173303P 2021-04-09 2021-04-09
US63/173,303 2021-04-09
PCT/US2022/024302 WO2022217159A1 (en) 2021-04-09 2022-04-11 Geometric partition mode with explicit motion signaling

Publications (1)

Publication Number Publication Date
CN117121482A true CN117121482A (zh) 2023-11-24

Family

ID=83546612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280026872.8A Pending CN117121482A (zh) 2021-04-09 2022-04-11 具有显式运动信令的几何分区模式

Country Status (7)

Country Link
US (1) US20240048700A1 (zh)
EP (1) EP4320863A1 (zh)
JP (1) JP2024512647A (zh)
KR (1) KR20230157507A (zh)
CN (1) CN117121482A (zh)
MX (1) MX2023011392A (zh)
WO (1) WO2022217159A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024099334A1 (en) * 2022-11-08 2024-05-16 Douyin Vision Co., Ltd. Method, apparatus, and medium for video processing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113056917B (zh) * 2018-11-06 2024-02-06 北京字节跳动网络技术有限公司 为视频处理使用具有几何分割的帧间预测
CN111418207B (zh) * 2018-11-06 2024-04-19 北京字节跳动网络技术有限公司 依赖块尺寸的对运动信息的存储
KR20220016075A (ko) * 2019-06-04 2022-02-08 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 모션 후보 리스트 구성 프로세스의 조건부 구현
WO2021015581A1 (ko) * 2019-07-23 2021-01-28 한국전자통신연구원 기하학적 분할을 사용하는 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체

Also Published As

Publication number Publication date
EP4320863A1 (en) 2024-02-14
MX2023011392A (es) 2023-10-09
WO2022217159A1 (en) 2022-10-13
JP2024512647A (ja) 2024-03-19
KR20230157507A (ko) 2023-11-16
US20240048700A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
CN111937391B (zh) 用于视频编解码系统中的子块运动补偿的视频处理方法和装置
WO2020169082A1 (en) Intra block copy merge list simplification
KR102711349B1 (ko) 화면 내 블록 복사를 위한 히스토리 기반 움직임 후보 리스트 구성
WO2020025041A1 (en) Method and apparatus of enhanced intra block copying mode for video coding
WO2017076221A1 (en) Method and apparatus of inter prediction using average motion vector for video coding
JP2022508177A (ja) イントラブロックコピーモードとインター予測ツールとの間の相互作用
CN113170183A (zh) 用于具有几何分割的帧间预测的修剪方法
EP3821599A1 (en) Merge candidates with multiple hypothesis
US11871034B2 (en) Intra block copy for screen content coding
CN113302916A (zh) 具有cu级别权重的双向预测的插值
US20230115074A1 (en) Geometric partition mode with motion vector refinement
EP4037320A1 (en) Boundary extension for video coding
US20240048700A1 (en) Geometric partition mode with explicit motion signaling
CN117321990A (zh) 具有运动矢量细化的几何分区模式
CN117242774A (zh) 用于具有运动矢量细化的几何分区模式的方法和设备
WO2023131047A1 (en) Method, apparatus, and medium for video processing
WO2024017224A1 (en) Affine candidate refinement
CN117426087A (zh) 用于具有运动矢量细化的几何划分模式的方法和设备
CN117597922A (zh) 用于利用运动矢量细化的几何分区模式的方法和设备
CN117643054A (zh) 具有运动矢量细化的几何分区模式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination