CN110662055B - 扩展Merge模式 - Google Patents

扩展Merge模式 Download PDF

Info

Publication number
CN110662055B
CN110662055B CN201910586671.3A CN201910586671A CN110662055B CN 110662055 B CN110662055 B CN 110662055B CN 201910586671 A CN201910586671 A CN 201910586671A CN 110662055 B CN110662055 B CN 110662055B
Authority
CN
China
Prior art keywords
candidate
motion
candidates
emm
motion information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910586671.3A
Other languages
English (en)
Other versions
CN110662055A (zh
Inventor
刘鸿彬
张莉
张凯
王悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of CN110662055A publication Critical patent/CN110662055A/zh
Application granted granted Critical
Publication of CN110662055B publication Critical patent/CN110662055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了用于在视频编码中使用扩展Merge模式(EMM)的方法、设备和系统。一种视频处理的示例性方法,该方法包括构建EMM候选列表;基于当前块的比特流表示中的比特的第一集合来确定由当前块从列表中继承的运动信息;基于该比特流表示中的比特的第二集合来确定该当前块被信令通知的运动信息;并且基于EMM候选列表和被信令通知的运动信息来执行当前块与比特流表示之间的转换。

Description

扩展Merge模式
相关申请的交叉引用
根据适用的专利法和/或依据巴黎公约的规则,本申请要求于2018年6月29日提交的国际专利申请第PCT/CN2018/093646号的优先权和权益。该国际专利申请第PCT/CN2018/093646号的全部公开内容通过引用并入作为本申请的公开内容的一部分。
技术领域
本文件涉及视频编码和解码技术。
背景技术
数字视频占因特网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的所连接的用户设备的数量增加,预计数字视频使用的带宽需求将继续增长。
发明内容
所公开的技术可以由视频解码器或编码器实施例用于使用扩展合并(merge)模式,其中一些运动信息可以被继承,而一些运动信息可以被信令通知。
在一个示例方面,公开了一种视频处理方法。该方法包括构建扩展Merge模式(EMM)候选列表;基于当前块的比特流表示中的比特的第一集合来确定由当前块从列表中继承的运动信息;基于该比特流表示中的比特的第二集合来确定该当前块被信令通知的运动信息;并且基于EMM候选列表和被信令通知的运动信息来执行当前块与比特流表示之间的转换。
在另一个示例方面,上述方法可以由包括处理器的视频解码器装置实现。
在另一个示例方面,上述方法可以由视频编码器装置实现,该视频编码器装置包括用于在视频编码过程期间对已编码的视频进行解码的处理器。
在又一个示例方面,这些方法可以以处理器可执行指令的形式实施并存储在计算机可读程序介质上。
在本文件中进一步描述了这些方面和其他方面。
附图说明
图1示出了用于Merge候选列表构建的推导过程的示例。
图2示出了空间Merge候选的示例位置。
图3示出了考虑空间Merge候选的冗余校验的候选对的示例。
图4A和图4B示出了N×2N和2N×N划分的第二PU的示例位置。
图5是用于时间Merge候选的运动矢量缩放的示例图示。
图6示出了时间Merge候选C0和C1的候选位置的示例。
图7示出了组合的双向预测Merge候选的示例。
图8示出了用于运动矢量预测候选的示例推导过程。
图9示出了用于空间运动矢量候选的运动矢量缩放的示例图示。
图10示出了用于导出IC参数的相邻样点的示例。
图11示出了简化的仿射运动模型的示例。
图12示出了每个子块的仿射MVF的示例。
图13显示了AF_INTER的MVP的示例。
图14A和14B示出了AF_MERGE的候选的示例。
图15示出了双边匹配的示例。
图16示出了模板匹配的示例。
图17示出了FRUC中单向ME的示例。
图18示出了基于双边模板匹配的DMVR的示例。
图19示出了非相邻Merge候选的示例。
图20示出了非相邻Merge候选的示例。
图21示出了非相邻Merge候选的示例。
图22和图23描绘了视频编码的最终运动矢量表达技术的示例。
图24是视频比特流处理方法的示例的流程图。
图25是视频处理装置的示例的框图。
具体实施方式
本文件提供了可由视频比特流的解码器使用的各种技术,以改善解压缩的或解码的数字视频的质量。此外,视频编码器也可在编码过程期间实现这些技术,以便重建用于进一步编码的已解码帧。
为了便于理解,在本文件中使用了节标题,但是并非将实施例和技术限制于对应的节。这样,来自一个节的实施例可以与来自其他节的实施例组合。
2.技术框架
视频编码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而得以演进。ITU-T产生了H.261和H.263标准,ISO/IEC产生了MPEG-1和MPEG-4Visual标准,并且两个组织联合产生了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编码(Advanced VideoCoding,AVC)标准和H.265/HEVC标准。自H.262以来,视频编码标准基于混合视频编码结构,其中利用时间预测加变换编码。为探索HEVC之外的未来视频编码技术,联合视频探索团队(Joint Video Exploration Team,JVET)由VCEG和MPEG于2015年联合创立。自那时以来,JVET采用了许多新方法,并将其纳入了名为联合探索模型(Joint Exploration Model,JEM)的参考软件中。在2018年4月,VCEG(Q6/16)和ISO/IEC JTC1SC29/WG11(MPEG)之间的联合视频专家团队(Joint Video Expert Team,JVET)被创建以从事于VVC标准,目标是与HEVC相比降低50%的比特率。
2.1在HEVC/H.265中的帧间预测
每个帧间预测的PU具有对于一个或两个参考图像列表的运动参数。运动参数包括运动矢量和参考图像索引。也可以使用inter_pred_idc来信令通知对两个参考图像列表中一个的使用。运动矢量可以被明确地编码为相对于预测器的增量。
当使用跳过(skip)模式编码CU时,一个PU与该CU相关联,并且不存在显著的残差系数,不存在编码的运动矢量增量或参考图像索引。指定Merge模式,由此从相邻PU——包括空间和时间候选——获得用于当前PU的运动参数。Merge模式可以应用于任何帧间预测的PU,而不仅适用于跳过模式。Merge模式的替代方案是运动参数的显式传输(explicittransmission),其中运动矢量(更确切地说,与运动矢量预测器相比的运动矢量差异)、每个参考图像列表的对应参考图像索引、参考图像列表使用被每个PU地明确地信令通知。这样的模式在本文件中被命名为高级运动矢量预测(Advanced motion vector prediction,AMVP)。
当信令指示要使用两个参考图像列表中的一个时,PU从一个样点块产生。这被称为“单向预测”。单向预测可用于P条带和B条带。
当信令指示要使用两个参考图像列表时,PU从两个样点块产生。这被称为“双向预测”。双向预测仅可用于B条带。
以下文本提供了HEVC中指定的帧间预测模式的细节。描述将从Merge模式开始。
2.1.1Merge模式
2.1.1.1Merge模式的候选的推导
当使用Merge模式预测PU时,从比特流解析出指向Merge候选列表(mergecandidates list)中的条目的索引,并且该索引被用于检索运动信息。该列表的构建在HEVC标准中规定,并且可以根据以下步骤顺序进行总结:
步骤1:初始候选推导
步骤1.1:空间候选推导
步骤1.2:空间候选的冗余校验
步骤1.3:时间候选推导
步骤2:附加候选插入
步骤2.1:创建双向预测候选
步骤2.2:插入零运动候选
这些步骤也在图1中示意性地描绘。对于空间Merge候选推导,在位于五个不同位置的候选中选择最多四个Merge候选。对于时间Merge候选推导,在两个候选中选择最多一个Merge候选。由于在解码器处假设每个PU的候选的数量为常数,因此当从步骤1获得的候选的数量未达到在条带报头中信令通知的最大Merge候选数量(MaxNumMergeCand)时,生成附加的候选。由于候选的数量是恒定的,因此使用二进制一元截断(TUB)来编码最佳Merge候选的索引。如果CU的尺寸等于8,则当前CU的所有PU共享单个Merge候选列表,该单个Merge候选列表与2N×2N预测单元的Merge候选列表相同。
在下文中,详细描述了与上述步骤相关联的操作。
2.1.1.2空间候选推导
在空间Merge候选的推导中,在位于图2中描绘的位置中的候选中选择最多四个Merge候选。推导的顺序是A1、B1、B0、A0和B2。仅当位置A1、B1、B0、A0的任何PU不可用时(例如,因为该PU属于另一个条带(slice)或片(tile))或者是帧内编码时,才考虑位置B2。在添加位置A1处的候选之后,对剩余候选的添加进行冗余校验,该冗余校验确保具有相同运动信息的候选被排除在列表之外,从而改善编码效率。为了降低计算复杂度,在所提到的冗余校验中并未考虑所有可能的候选对。相反,仅考虑与图3中的箭头链接的对,并且如果用于冗余校验的对应候选具有不同的运动信息,则该候选仅被添加到列表中。重复的运动信息的另一个来源是与不同于2Nx2N的划分相关联的“第二PU”。作为示例,图4A-4B分别描绘了针对N×2N和2N×N的情况的第二PU。当当前PU被划分为N×2N时,位置A1处的候选不被考虑用于列表构建。实际上,通过添加该候选将导致具有相同运动信息的两个预测单元,这对于在编码单元中仅具有一个PU是冗余的。类似地,当当前PU被划分为2N×N时,不考虑位置B1
2.1.1.3时间候选推导
在此步骤中,只有一个候选被添加到列表中。特别地,在该时间Merge候选的推导中,基于共位(co-located)的PU来导出缩放的运动矢量,该共位的PU属于相对于给定参考图像列表内的当前图像具有最小POC差异的图像。在条带报头中明确地信令通知用于共位的PU的推导的参考图像列表。如图5中的虚线所示,获得用于时间Merge候选的缩放的运动矢量,其使用POC距离tb和td从共位的PU的运动矢量缩放,其中tb被定义为当前图像的参考图像与该当前图像之间的POC差异,并且td被定义为共位图像的参考图像与该共位图像之间的POC差异。时间Merge候选的参考图像索引被设置为等于零。在HEVC规范中描述了缩放过程的实际实现。对于B条带,获得两个运动矢量并将其组合以产生双向预测Merge候选,该两个运动矢量中的一个用于参考图像列表0而另一个用于参考图像列表1。
如图6所示,在属于参考帧的共位的PU(Y)中,在候选C0和C1之间选择用于时间候选的位置。如果位置C0处的PU为不可用的、被帧内编码的或在当前CTU行之外,则使用位置C1。否则,在时间Merge候选的推导中使用位置C0
2.1.1.4附加的候选插入
除了空间和时间Merge候选之外,还存在两种附加类型的Merge候选:组合的双向预测Merge候选和零Merge候选。通过利用空间和时间Merge候选来生成组合的双向预测Merge候选。组合的双向预测Merge候选仅用于B条带。通过将初始候选的第一参考图像列表运动参数与另一个候选的第二参考图像列表运动参数组合来生成组合的双向预测候选。如果这两个元组提供不同的运动假设,则它们将形成一个新的双向预测候选。作为示例,图7描绘了当原始列表(在左方)中具有mvL0和refIdxL0或mvL1和refIdxL1的两个候选被用于创建组合的双向预测Merge候选的情况,该组合的双向预测Merge候选被添加到最终列表(在右方)。关于被考虑来生成这些附加Merge候选的组合存在许多规则。
零运动候选被插入以填充Merge候选列表中的剩余条目,并且因此达到MaxNumMergeCand容量。这些候选具有零空间位移和参考图像索引,该参考图像索引从零开始并且每当新的零运动候选被添加到列表时增加。这些候选使用的参考帧的数量是分别用于单向和双向预测的1和2。最后,不对这些候选执行冗余校验。
2.1.1.5用于并行处理的运动估计区域
为了加速编码过程,可以并行执行运动估计,由此同时导出给定区域内的所有预测单元的运动矢量。来自空间邻域的Merge候选的推导可能干扰并行处理,因为一个预测单元直到其相关联的运动估计完成才能从相邻PU导出运动参数。为了减轻编码效率和处理等待时间之间的折衷,HEVC定义了运动估计区域(MER),运动估计区域的尺寸在图像参数集中使用“log2_parallel_merge_level_minus2”语法元素来信令通知。当MER被定义时,落入同一区域的Merge候选被标记为不可用,并且因此在列表构建中也不被考虑。
2.1.2AMVP
AMVP利用运动矢量与相邻PU的时空相关性,该时空相关性用于运动参数的显式传输。对于每个参考图像列表,通过下述操作来构建运动矢量候选列表:首先校验左方、上方在时间上相邻PU位置的可用性,移除冗余候选,并添加零矢量以使候选列表为恒定长度。然后,编码器可以从候选列表中选择最佳预测器,并传输指示所选候选的对应索引。与Merge索引信令类似,使用二进制一元截断来编码最佳运动矢量候选的索引。在这种情况下要编码的最大值是2(参见图8)。在以下的节中,提供了关于运动矢量预测候选的推导过程的细节。
2.1.2.1AMVP候选的推导
图8总结了用于运动矢量预测候选的推导过程。
在运动矢量预测中,考虑两种类型的运动矢量候选:空间运动矢量候选和时间运动矢量候选。如图2所示,对于空间运动矢量候选推导,最终基于位于五个不同位置的每个PU的运动矢量来导出两个运动矢量候选。
对于时间运动矢量候选推导,从基于两个不同的共位位置导出的两个候选中选择一个运动矢量候选。在制作时空候选的第一列表之后,移除列表中的重复的运动矢量候选。如果潜在候选的数量大于2,则从列表中移除其在相关联的参考图像列表内的参考图像索引大于1的运动矢量候选。如果时空运动矢量候选的数量小于2,则将附加的零运动矢量候选添加到列表中。
2.1.2.2空间运动矢量候选
在空间运动矢量候选的推导中,在五个潜在候选中考虑最多两个候选,该五个潜在候选来自位于如图2所示的位置的PU,这些位置与运动合并的那些位置相同。当前PU的左侧的推导顺序被定义为A0、A1以及缩放的A0、缩放的A1。当前PU的上侧的推导顺序被定义为B0、B1、B2、缩放的B0、缩放的B1、缩放的B2。因此,对于每一侧,存在四种可用作运动矢量候选的情况,其中两种情况不需要使用空间缩放,并且两种情况使用空间缩放。四种不同的情况总结如下。
·无空间缩放
(1)相同的参考图像列表,以及相同的参考图像索引(相同的POC)
(2)不同的参考图像列表,但是相同的参考图像索引(相同的POC)
·空间缩放
(3)相同的参考图像列表,但不同的参考图像索引(不同的POC)
(4)不同的参考图像列表,以及不同的参考图像索引(不同的POC)
首先校验无空间缩放情况,接下来校验空间缩放。不管参考图像列表如何,当POC在相邻PU的参考图像与当前PU的参考图像之间是不同的时,考虑空间缩放。如果左方候选的所有PU都不可用或者是被帧内编码的,则允许对上方运动矢量进行缩放,以帮助左方和上方MV候选的并行推导。否则,对上侧运动矢量不允许空间缩放。
如图9所示,在空间缩放过程中,以与时间缩放类似的方式缩放相邻PU的运动矢量。主要差异在于当前PU的参考图像列表和索引被给出以作为输入;实际缩放过程与时间缩放过程相同。
2.1.2.3时间运动矢量候选
除了参考图像索引推导之外,用于时间Merge候选的推导的所有过程与用于空间运动矢量候选的推导的过程相同(参见图6)。将参考图像索引信令通知给解码器。
2.2 JEM中新的帧间预测方法
2.2.1自适应运动矢量差异分辨率
在HEVC中,当条带报头中的use_integer_mv_flag等于0时,以四分之一亮度样点为单位,信令通知(PU的运动矢量与预测的运动矢量之间的)运动矢量差异(MVD)。在JEM中,引入了局部自适应运动矢量分辨率(LAMVR)。在JEM中,MVD可以以四分之一亮度样点、整数亮度样点或四个亮度样点为单位进行编码。在编码单元(CU)级别控制MVD分辨率,并且向具有至少一个非零MVD分量的每个CU,有条件地信令通知MVD分辨率标志。
对于具有至少一个非零MVD分量的CU,信令通知第一标记,以指示是否在CU中使用四分之一亮度样点MV精度。当第一标志(等于1)指示未使用四分之一亮度样点MV精度时,信令通知另一个标志,以指示是否使用整数亮度样点MV精度或四个亮度样点MV精度。
当CU的第一MVD分辨率标志为零,或未针对CU编码(意味着CU中的所有MVD均为零)时,四分之一亮度样点MV分辨率被用于该CU。当CU使用整数亮度样点MV精度或四个亮度样点MV精度时,该CU的AMVP候选列表中的MVP被取整到对应的精度。
在编码器中,使用CU级别RD校验来确定将哪个MVD分辨率将用于CU。换言之,对于每个MVD分辨率,执行CU级RD校验三次。为了加快编码器速度,在JEM中应用以下编码方案。
·在具有正常四分之一亮度样点MVD分辨率的CU的RD校验期间,存储该当前CU的运动信息(整数亮度样点精度)。对于具有整数亮度样点和4个亮度样点MVD分辨率的相同CU,存储的运动信息(取整后)被用作RD校验期间进一步小范围运动矢量细化的起点,使得耗时的运动估计过程不重复三次。
·有条件地调用具有4个亮度样点MVD分辨率的CU的RD校验。对于CU,当整数亮度样点MVD分辨率的RD成本远大于四分之一亮度样点MVD分辨率的RD成本时,跳过该CU的4个亮度样点MVD分辨率的RD校验。
2.2.2较高的运动矢量存储精度
在HEVC中,运动矢量精度是四分之一像素(pel)(用于4:2:0视频的四分之一亮度样点和八分之一色度样点)。在JEM中,内部运动矢量存储和Merge候选的准确度增加到1/16像素。较高的运动矢量精度(1/16像素)用于以跳过模式/Merge模式编码的CU的运动补偿帧间预测。如节2.2.1所述,对于使用正常AMVP模式编码的CU,使用整数像素或四分之一像素运动。
具有与HEVC运动补偿插值滤波器相同的滤波器长度和归一化因子的SHVC上采样插值滤波器,被用作附加分数像素位置的运动补偿插值滤波器。在JEM中色度分量运动矢量精度是1/32样点,通过使用两个相邻1/16像素分数位置的滤波器的平均值,来导出1/32像素分数位置的附加插值滤波器。
2.2.3局部亮度补偿
局部亮度补偿(LIC)基于用于亮度变化的线性模型,使用缩放因子a和偏移b。并且,针对每个帧间模式编码的编码单元(CU)自适应地启用或禁用LIC。
当LIC应用于CU时,采用最小平方误差方法,通过使用当前CU的相邻样点及其对应的参考样点来导出参数a和b。更具体地,如图10所示,使用了该CU的子采样(2:1子采样)的相邻样点和参考图像中的对应样点(其由当前CU或子CU的运动信息识别)。IC参数被导出并被分别应用于每个预测方向。
当使用Merge模式对CU进行编码时,以类似于Merge模式中的运动信息复制的方式从相邻块复制LIC标志;否则,向该CU信令通知LIC标志以指示LIC是否适用。
当对图像启用LIC时,需要附加的CU级别RD校验以确定是否对CU应用LIC。当对CU启用LIC时,分别对整数像素运动搜索和分数像素运动搜索,使用均值移除的绝对差和(mean-removed sum of absolute diffefference,MR-SAD)以及均值移除的绝对哈达玛变换差和(mean-removed sum of absolute Hadamard-transformed difference,MR-SATD),而不是SAD和SATD。
为了降低编码复杂度,在JEM中应用以下编码方案。
当当前图像与其参考图像之间不存在明显的亮度变化时,对整个图像禁用LIC。为了识别这种情况,在编码器处,计算当前图像与该当前图像的每个参考图像的直方图。如果当前图像与该当前图像的每个参考图像之间的直方图差异小于给定阈值,则对当前图像禁用LIC;否则,对当前图像启用LIC。
2.2.4仿射运动补偿预测
在HEVC中,仅将平移运动模型应用于运动补偿预测(MCP)。而在现实世界中,存在许多种运动,例如放大/缩小、旋转、透视运动和其他不规则的运动。在JEM中,应用简化的仿射变换运动补偿预测。如图11所示,块的仿射运动场由两个控制点运动矢量描述。
块的运动矢量场(MVF)由以下等式描述:
Figure BDA0002114721970000101
其中(v0x,v0y)是左顶角控制点的运动矢量,(v1x,v1y)是右顶角控制点的运动矢量。
为了进一步简化运动补偿预测,应用基于子块的仿射变换预测。子块尺寸M×N如等式(2)。中导出,其中MvPre是运动矢量分数精度(在JEM中为1/16),(v2x,v2y)是左下控制点的运动矢量,根据等式(1)计算。
Figure BDA0002114721970000102
在由等式(2)导出之后,如果需要,应该向下调整M和N,以使其分别为w和h的除数。
如图12所示,为了导出每个M×N子块的运动矢量,根据等式(1)计算每个子块的中心样点的运动矢量并将其取整至1/16分数精度。然后,应用运动补偿插值滤波器,以利用导出的运动矢量生成每个子块的预测。
在MCP之后,每个子块的高精度运动矢量以与正常运动矢量相同的精度被取整并保存。
在JEM中,存在两种仿射运动模式:AF_INTER模式和AF_MERGE模式。对于宽度和高度均大于8的CU,可以应用AF_INTER模式。在比特流中信令通知CU级别的仿射标志,以指示是否使用AF_INTER模式。在此模式下,使用相邻块构建具有运动矢量对{(v0,v1)|v0={vA,vB,vc},v1={vD,vE}}的候选列表。如图13所示,从块A、B或C的运动矢量中选择v0。来自相邻块的运动矢量根据参考列表以及根据相邻块的参考的POC、当前CU的参考的POC和当前CU的POC之间的关系来缩放。并且从相邻块D和E中选择v1的方法是类似的。如果候选列表的数量小于2,则由通过重复每个AMVP候选而构建的运动矢量对来填充该列表。当候选列表大于2时,首先根据相邻运动矢量的一致性(候选对中的两个运动矢量的相似性)对候选进行分类,并且仅保留前两个候选。RD成本校验用于确定选择哪个运动矢量对候选作为当前CU的控制点运动矢量预测(CPMVP)。并且,在比特流中信令通知指示候选列表中的CPMVP的位置的索引。在确定当前仿射CU的CPMVP之后,应用仿射运动估计,并找到控制点运动矢量(CPMV)。然后在比特流中信令通知CPMV与CPMVP的差异。
当在AF_MERGE模式中应用CU时,它从有效的相邻重建块获得使用仿射模式编码的第一块。如图14A所示,并且对于候选块的选择顺序是从左方、上方、右上方、左下方到左上方。如图14B所示,如果相邻左下块A以仿射模式编码,则导出包含块A的CU的左顶角、右上角和左底角的运动矢量v2、v3和v4。并且根据v2、v3和v4来计算当前CU的左顶角的运动矢量v0。其次,计算当前CU的右上方的运动矢量v1
在导出当前CU的CPMVv0和v1之后,根据简化的仿射运动模型等式(1),生成该当前CU的MVF。为了识别当前CU是否使用AF_MERGE模式编码,当存在至少一个相邻块以仿射模式编码时,在比特流中信令通知仿射标志。
2.2.5模式匹配的运动矢量推导
模式匹配的运动矢量推导(Pattern matched motion vector derivation,PMMVD)模式是一种基于帧速率上转换(Frame-Rate Up Conversion,FRUC)技术的特殊Merge模式。使用该模式,块的运动信息不被信令通知,而是在解码器侧导出。
当CU的Merge标志为真时,向该CU信令通知FRUC标志。当FRUC标志为假时,信令通知Merge索引,并使用常规Merge模式。当FRUC标志为真时,信令通知附加的FRUC模式标志以指示将使用哪种方法(双边匹配或模板匹配)来导出该块的运动信息。
在编码器侧,关于是否对CU使用FRUC Merge模式的决定是基于如对正常Merge候选那样所做的RD成本选择。换言之,通过使用RD成本选择来校验CU的两种匹配模式(双边匹配和模板匹配)。导致最小成本的匹配模式与其他CU模式进一步比较。如果FRUC匹配模式是最有效的模式,则对于CU将FRUC标志设置为真,并且使用有关匹配模式。
FRUC Merge模式中的运动推导过程有两个步骤。首先执行CU级别运动搜索,接下来执行子CU级别运动细化。在CU级别,基于双边匹配或模板匹配为整个CU导出初始运动矢量。首先,生成MV候选列表,并且选择导致最小匹配成本的候选作为进一步CU级别细化的起点。然后,围绕起始点执行基于双边匹配或模板匹配的局部搜索,并且将导致最小匹配成本的MV作为整个CU的MV。随后,运动信息在子CU级别进一步细化,其中导出的CU运动矢量作为起点。
例如,针对W×HCU运动信息推导执行以下推导处理。在第一阶段,导出整体W×HCU的MV。在第二阶段,CU进一步划分为M×M子CU。如(3)中计算M的值,D是预定义的划分深度,其在JEM中默认设置为3。然后导出每个子CU的MV。
Figure BDA0002114721970000121
如图15所示,双边匹配用于通过在两个不同参考图像中沿当前CU的运动轨迹找到两个块之间的最接近匹配,来导出当前CU的运动信息。在连续运动轨迹的假设下,指向两个参考块的运动矢量MV0和MV1应当与在当前图像和两个参考图像之间的时间距离——即TD0和TD1——成比例。作为特殊情况,当当前图像在时间上在两个参考图像之间并且从当前图像到两个参考图像的时间距离相同时,双边匹配变为基于镜像的双向MV。
如图16所示,模板匹配用于通过找到在当前图像中的模板(当前CU的顶部相邻块和/或左方相邻块)与参考图像中的块(具有与模板相同的尺寸)之间的最接近匹配,来导出当前CU的运动信息。除了上述FRUC Merge模式之外,模板匹配也适用于AMVP模式。在JEM中,如在HEVC中一样,AMVP有两个候选。使用模板匹配方法,导出新的候选。如果由模板匹配的新导出的候选与第一现有AMVP候选不同,则将其插入AMVP候选列表的最开始,并且然后将列表尺寸设置为2(这意味着移除第二现有AMVP候选)。当应用于AMVP模式时,仅应用CU级别搜索。
2.2.5.1 CU级别MV候选集合
CU级别的MV候选集合由以下组成:
(i)如果当前CU处于AMVP模式,则为原始AMVP候选,
(ii)所有Merge候选,
(iii)插值MV域中的数个MV,
(iv)顶部和左方相邻的运动矢量。
当使用双边匹配时,Merge候选的每个有效MV被用作输入,以在假设双边匹配的情况下生成MV对。例如,Merge候选的一个有效MV是在参考列表A中的(MVa,refa)。然后,在其他参考列表B中找到其配对双边MV的参考图像refb,使得refa和refb在时间上位于当前图片的不同侧。如果参考列表B中这样的refb不可用,则refb被确定为与refa不同的参考,并且refb到当前图像的时间距离是列表B中的最小值。在确定refb之后,基于当前图像与refa、refb之间的时间距离通过缩放MVa来导出MVb。
来自插值MV域的四个MV也被添加到CU级别候选列表。更具体地,添加当前CU的位置(0,0)、(W/2,0)、(0,H/2)和(W/2,H/2)处的插值MV。
当FRUC应用于AMVP模式时,原始AMVP候选也被添加到CU级别MV候选集合。
在CU级别,用于AMVP CU的最多15个MV、用于Merge CU的最多13个MV被添加到候选列表。
2.2.5.2子CU级别MV候选集合
子CU级别的MV候选集合由以下组成:
(i)从CU级别搜索确定的MV,
(ii)顶部、左方、左顶和右顶的相邻MV,
(iii)来自参考图像的并列MV的缩放版本,
(iv)最多4个ATMVP候选,
(v)最多4个STMVP候选。
来自参考图像的缩放MV如下导出。遍历两个列表中的所有参考图像。参考图像中的子CU的并列位置处的MV被缩放到起始CU级别MV的参考。
ATMVP和STMVP候选仅限于前四个。
在子CU级别,最多17个MV被添加到候选列表中。
2.2.5.3插值MV域的生成
在对帧进行编码之前,基于单边ME为整个图像生成插值运动域。然后,运动域可以稍后用作CU级别或子CU级别MV候选。
首先,两个参考列表中的每个参考图像的运动域以4×4块级别遍历。对于每个4×4块,如果与块相关联的运动通过当前图像中的4×4块(如图17所示)并且该块尚未被分配任何插值运动,则参考块的运动根据时间距离TD0和TD1(与HEVC中的TMVP的MV缩放的方式相同的方式)缩放到当前图像,并且将缩放的运动分配给当前帧中的块。如果无缩放的MV被分配到4×4块,则在插值的运动域中将块的运动标记为不可用。
2.2.5.4插值和匹配成本
当运动矢量指向分数样点位置时,需要运动补偿插值。为了降低复杂性,双边匹配和模板匹配都使用双线性插值而不是常规的8抽头HEVC插值。
匹配成本的计算在不同的步骤有点不同。当从CU级别的候选集合中选择候选时,匹配成本是双边匹配或模板匹配的绝对差值和(SAD)。在确定起始MV之后,如下计算子CU级别搜索的双边匹配的匹配成本C:
Figure BDA0002114721970000141
其中w是一个加权因子,且根据经验设置为4,MV和MVs分别指示当前MV和起始MV。SAD仍用作子CU级别搜索的模板匹配的匹配成本。
在FRUC模式中,MV通过仅使用亮度样点导出。导出的运动将用于MC帧间预测的亮度和色度。在确定MV之后,使用用于亮度的8抽头插值滤波器和用于色度的4抽头插值滤波器来执行最终MC。
2.2.5.5 MV细化
MV细化是以双边匹配成本或模板匹配成本为准则的基于模式的MV搜索。在JEM中,支持两种搜索模式——分别用于CU级别和子CU级别的MV细化的无限制的中心偏置菱形搜索(unrestricted center-biased diamond search,UCBDS)和自适应交叉搜索(adaptivecross search)。对于CU级别和子CU级别MV细化,以四分之一亮度样点MV精度直接搜索MV,并且接下来以八分之一亮度样点MV细化。对于CU步骤和子CU步骤的MV细化的搜索范围被设置为等于8个亮度样点。
2.2.5.6模板匹配FRUC Merge模式中预测方向的选择
在双边匹配Merge模式中,始终应用双向预测,因为基于在两个不同参考图像中沿当前CU的运动轨迹的两个块之间的最接近匹配来导出CU的运动信息。模板匹配Merge模式不存在这样的限制。在模板匹配Merge模式中,编码器可以在针对CU的来自列表0的单向预测、来自列表1的单向预测或者双向预测之中进行选择。选择基于模板匹配成本,如下:
如果costBi<=factor*min(cost0,cost1)
使用双向预测;
否则,如果cost0<=cost1
使用来自列表0的单向预测;
否则,
使用来自列表1的单向预测;
其中cost0是列表0模板匹配的SAD,cost1是列表1模板匹配的SAD,costBi是双向预测模板匹配的SAD。factor的值等于1.25,这意味着选择过程偏向于双向预测。
帧间预测方向选择仅应用于CU级别模板匹配过程。
2.2.6解码器侧运动矢量细化
在双向预测操作中,为了预测一个块区域,分别使用列表0的运动矢量(MV)和列表1的MV形成的两个预测块被组合以形成单个预测信号。在解码器侧运动矢量细化(DMVR)方法中,双向预测的两个运动矢量通过双边模板匹配过程进一步细化。双边模板匹配应用于解码器中,以在双边模板和参考图像中的重建样点之间执行基于失真的搜索,以便在不传输附加的运动信息的情况下获得细化的MV。
如图18所示,在DMVR中,分别从列表0的初始MV0和列表1的MV1生成双边模板,作为两个预测块的加权组合(即平均)。模板匹配操作包括计算生成的模板与参考图像中的样点区域(在初始预测块周围)之间的成本度量。对于两个参考图像中的每一个,产生最小模板成本的MV被视为该列表的更新MV以替换原始模板。在JEM中,对于每个列表,搜索九个MV候选。该九个MV候选包括原始MV和8个周围MV,其中一个亮度样点在水平或垂直方向上或在两个方向上偏移到原始MV。最后,如图18所示,两个新的MV,即MV0'和MV1',被用于生成最终的双向预测结果。绝对差值和(SAD)用作成本度量。请注意,当计算由一个周围MV生成的预测块的成本时,实际上使用取整的MV(到整数像素)而不是真实MV来获得预测块。
DMVR被应用于双向预测的Merge模式,在不传输附加的语法元素的情况下使用来自过去的参考图像中的一个MV和来自将来的参考图像中的另一个MV。在JEM中,当为CU启用LIC、仿射运动、FRUC或子CU Merge候选时,不应用DMVR。
2.3非相邻Merge候选
在J0021中,高通建议从非相邻的相邻位置导出附加的空间Merge候选,这些非相邻的相邻位置被标记为6至49,如图19所示。在Merge候选列表中的TMVP候选之后添加导出的候选。
在J0058中,腾讯建议从外部参考区域中的位置导出附加的空间Merge候选,该外部参考区域到当前块的偏移为(-96,-96)。
如图20所示,位置标记为A(i,j)、B(i,j)、C(i,j)、D(i,j)和E(i,j)。与其先前的B或C候选相比,每个候选B(i,j)或C(i,j)在垂直方向上具有16的偏移。与其先前的A或D候选相比,每个候选A(i,j)或D(i,j)在水平方向上具有16的偏移。与其先前的E候选相比,每个E(i,j)在水平方向和垂直方向上具有16的偏移。候选从内到外进行校验。并且候选的顺序是A(i,j)、B(i,j)、C(i,j)、D(i,j)和E(i,j)。进一步研究Merge候选的数量是否可以进一步减少。在Merge候选列表中的TMVP候选之后添加候选。
在J0059中,根据时间候选之后的数字顺序校验如图21中的从6到27的扩展空间位置。为了保存MV线缓冲区,所有空间候选都被限制在两个CTU线内。
2.4相关方法
在J0024中的终极运动矢量表达(ultimate motion vector expression,UMVE)可以是跳过模式或直接(或Merge)模式,其使用所建议的使用相邻运动信息的运动矢量表达方法。作为HEVC中的跳过模式和Merge模式,UMVE还根据相邻的运动信息制作候选列表。在列表中的那些候选中,选择MV候选并通过新的运动矢量表达方法对该MV候选进行进一步扩展。
图22示出了UMVE搜索过程的示例,并且图23示出了UMVE搜索点的示例。
UMVE提供了具有简化信令的新的运动矢量表达。该表达方法包括起点、运动幅度和运动方向。
基础候选索引定义了起点。基础候选索引如下指示在列表中的候选中的最佳候选。
基础候选索引 0 1 2 3
N<sup>th</sup> MVP 1<sup>st</sup> MVP 2<sup>nd</sup> MVP 3<sup>rd</sup> MVP 4<sup>th</sup> MVP
距离索引是运动幅度信息。距离索引指示距离起点信息的预定义距离。该预定义距离如下所示(表格中pel表示像素)。
距离索引 0 1 2 3 4 5 6 7
像素距离 1/4-pel 1/2-pel 1-pel 2-pel 4-pel 8-pel 16-pel 32-pel
方向索引表示MVD相对于起点的方向。该方向索引可以表示四个方向,如下所示。
方向索引 00 01 10 11
x轴 + N/A N/A
y轴 N/A N/A +
3.现有实现方式的缺点的讨论
在Merge模式中,Merge候选的运动信息由当前块继承,包括运动矢量、参考图像、预测方向、LIC标志等。仅Merge索引被信令通知,这在许多情况下是高效的。然而,继承的运动信息尤其是运动矢量可能不足够好。
另一方面,在AMVP模式中,所有运动信息被信令通知,包括运动矢量(即MVP索引和MVD)、参考图像(即参考索引)、预测方向、LIC标志和MVD精度等,这消耗比特。
在J0024建议的UMVE中,建议对附加的MVD进行编码。然而,MVD仅可以在水平方向或垂直方向上具有非零分量,而不能在两个方向上都具有非零分量。同时,它还信令通知MVD信息,即距离索引或运动幅度信息。
4.基于所公开的技术的扩展Merge模式(EMM)的方法
视频编码器和解码器实施例可以使用本文件中公开的技术来实现扩展Merge模式(EMM),其中只有很少的信息被信令通知,并且对MVD没有特别的限制。
下面的详细发明应被视为解释一般概念的示例。不应以狭隘的方式解释这些发明。此外,这些发明可以以任何方式组合。
建议将运动信息(诸如预测方向、参考索引/图像、运动矢量、LIC标志、仿射标志、帧内块复制(IBC)标志、MVD精度、MVD值)划分为两部分。第一部分是直接继承的,并且第二部分在有/无预测编码的情况下被明确地信令通知。
建议构建EMM列表,并且信令通知索引以指示当前块(例如,PU/CU)继承哪个候选的运动信息的第一部分。同时,进一步信令通知如MVD的附加信息(即运动信息的第二部分)。
a.运动信息的第一部分包括以下信息中的所有或一些:预测方向、参考图像、运动矢量、LIC标志和MVD精度等。
b.第二部分可以使用预测编码进行编码。
建议通过插入空间相邻块、时间相邻块或非相邻块的运动信息来构建运动信息候选列表。
a.在一个示例中,候选列表以与Merge模式相同的方式构建。
b.替代地,另外,将非相邻块的运动信息插入候选列表中。
c.替代地,另外,将基于PU/CU的FRUC候选插入候选列表中。
i.对于FRUC候选,MVD精度设置为1/4或任何随机的有效MVD精度。LIC标志设置为假。
d.替代地,另外,单向候选(如果不可用)从双向候选(如果可用)生成并被插入到候选列表中。从对应的双向候选中复制LIC标志和MVD精度。
e.替代地,另外,通过缩放LX方向候选的MV(如果可用)来生成L1-X方向候选(如果不可用)。从对应的LX方向候选中复制LIC标志和MVD精度。
ii.在一个示例中,选择L1-X参考图像列表的第一条目作为L1-X方向的参考图像。
iii.在一个示例中,选择LX参考图像的对称参考图像(如果可用)作为L1-X方向的参考图像。
f.还插入组合的双向预测候选和/或零候选。
替代地,预测方向不是被继承的而是明确地被信令通知的。在这种情况下,建议构建两个或多个运动信息候选列表。
a.对于一个预测方向(一个参考图像列表),构建运动信息候选列表,其中运动信息的第一部分(与上述实施例及其示例相比,排除参考图像列表索引)可以从运动信息候选列表中的一个继承。在一个示例中,运动信息的第一部分可以包括以下信息中的全部或一些:参考图像、运动矢量、LIC标志和MVD精度等。
b.替代地,如上面的实施例及其示例所述,仅构建一个运动信息候选列表。然而,可以信令通知两个索引,以指示针对双向预测情况的每个参考图像列表继承哪些候选。
所建议的方法可以应用于某些块尺寸/形状和/或某些子块尺寸。
a.所建议的方法可以应用于某些模式,诸如传统的平移运动(即,禁用了仿射模式)。
上述示例可以被并入下面描述的方法(例如,方法2400)的上下文中,该方法可以在视频解码器或视频编码器实现。
图24是处理视频比特流的示例方法2400的流程图。该方法2400包括构建(2402)扩展Merge模式(EMM)候选列表;基于当前块的比特流表示中的比特的第一集合来确定(2404)由该当前块从列表中继承的运动信息;基于该比特流表示中的比特的第二集合来确定(2406)该当前块被信令通知的运动信息;并且基于EMM候选列表和被信令通知的运动信息来执行(2408)当前块与比特流表示之间的转换。
以下列举的示例提供了可以解决本文件中描述的技术问题以及其他问题的实施例。
1.一种视频处理方法,该方法包括构建扩展Merge模式(EMM)候选列表;基于当前块的比特流表示中的比特的第一集合来确定由当前块从列表中继承的运动信息;基于该比特流表示中的比特的第二集合来确定该当前块被信令通知的运动信息;并且基于EMM候选列表和被信令通知的运动信息来执行当前块与比特流表示之间的转换。
2.根据示例1的方法,其中由当前块继承的运动信息包括另一个块的如下运动信息中的至少一个:预测方向、参考图像、运动矢量、局部亮度补偿(LIC)标志和运动矢量差异(MVD)精度。
3.根据示例1或2的方法,其中被信令通知的运动信息包括当前块的预测运动信息或当前块的运动矢量差异(MVD)信息。
4.根据示例1或2的方法,其中使用预测编码对比特的第二集合进行编码。
5.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将来自空间相邻块的运动候选插入EMM候选列表中。
6.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将来自时间相邻块的运动候选插入EMM候选列表中。
7.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将来自非相邻块的运动候选插入EMM候选列表中。
8.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将帧速率上转换(FRUC)候选插入EMM候选列表中。
9.根据示例8的方法,其中对于FRUC候选,MVD精度设置为1/4并且LIC标志设置为假。
10.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将单向候选插入EMM候选列表中。
11.根据示例10的方法,其中单向候选是从双向候选生成的。
12.根据示例11的方法,其中单向候选的MVD精度和LIC标志是从双向候选复制的。
13.根据示例1至4中任一个的方法,其中构建EMM候选列表包括将LY方向候选插入EMM候选列表中,其中LY方向候选由LX方向候选的缩放运动矢量生成,其中X={0,1}且Y=1-X,并且其中L0和L1表示参考图像列表。
14.根据示例13的方法,其中选择LX参考图像的对称参考图像作为LY方向的参考图像。
15.根据示例1至14中任一个的方法,其中构建EMM候选列表包括将组合的双向预测候选或零候选插入EMM候选列表中。
16.根据示例1至4中任一个的方法,其中预测方向不是继承的而是包含在被信令通知的运动信息中,并且其中该方法进一步包括构建多个运动信息候选列表,其中多个运动信息候选列表中的一个包括来自相同预测方向的多个候选,并且其中由当前块继承的运动信息是从多个运动信息候选列表中的一个继承的。
17.根据示例16的方法,其中由当前块继承的运动信息识别参考图像、运动矢量、局部亮度补偿(LIC)标志和运动矢量差异(MVD)精度中的至少一个。
18.根据示例1至15中任一个的方法,其中使用两个索引来指示针对每个参考图像列表继承哪些候选,以用于当前块的双向预测编码。
19.根据示例1至4中任一个的方法,其中由当前块继承的运动信息包括运动矢量差异(MVD)精度。
20.根据示例1至19中任一项的方法,其中基于当前块的编码特性来选择性地使用方法,并且其中编码特性包括使用平移运动模型。
21.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中这些指令在由处理器执行时使得处理器实现示例1至20中的任何一个中的方法。
22.一种存储在非暂时性计算机可读介质上的计算机程序产品,计算机程序产品包括用于实施示例1至20中的任何一个中的方法的程序代码。
5.参考文献
[1]ITU-T和ISO/IEC,“High efficiency video coding”,Rec.ITU-T H.265|ISO/IEC 23008-2(有效版本)。
[2]C.Rosewarne,B.Bross,M.Naccari,K.Sharman,G.Sullivan,“HighEfficiency Video Coding(HEVC)Test Model 16(HM 16)Improved Encoder DescriptionUpdate 7,”JCTVC-Y1002,2016年10月。
[3]J.Chen,E.Alshina,G.J.Sullivan,J.-R.Ohm,J.Boyce,“Algorithmdescription of Joint Exploration Test Model 7(JEM7)”,JVET-G1001,2017年8月。
[4]JEM-7.0:https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-7.0。
[5]A.Alshin,E.Alshina等,“Description of SDR,HDR and 360°video codingtechnology proposal by Samsung,Huawei,GoPro,and HiSilicon–mobile applicationscenario”,JVET-J0024,2018年4月。
6.所公开技术的实施例
图25是视频处理装置2500的框图。装置2500可以用于实现本文描述的一种或多种方法。装置2500可以实施在智能手机、平板计算机、计算机、物联网(IoT)接收器等中。装置2500可以包括一个或多个处理器2502、一个或多个存储器2504和视频处理硬件2506。(一个或多个)处理器2502可以被配置为实现本文件中描述的一种或多种方法(包括但不限于方法2400)。(一个或多个)存储器2504可以用于存储用于实现本文描述的方法和技术的数据和代码。视频处理硬件2506可以用于在硬件电路中实现本文件中描述的一些技术。
在一些实施例中,视频编码方法可以使用在如关于图25所描述的硬件平台上实现的装置来实现。
本文件中描述的公开和其他解决方案、示例、实施例、模块和功能操作可以以数字电子电路实现,或者以计算机软件、固件或硬件实现,包含本文件中公开的结构及其结构等同物,或者以它们中的一个或多个的组合实现。公开和其他实施例可以实现为一个或多个计算机程序产品,即,在计算机可读介质上编码的一个或多个计算机程序指令模块,用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组合、或者它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如机器生成的电信号、光信号或电磁信号,其被生成以对信息进行编码以便传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式来部署计算机程序,包括作为独立程序或作为适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文件中的一个或多个脚本),存储在专用于所讨论的程序的单个文件中,或存储在多个协调文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并由通信网络互连的多个计算机上执行。
本文件中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例来说,适合于执行计算机程序的处理器包括通用和专用微处理器、以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,以从该一个或多个大容量存储设备接收数据,或将数据传递到该一个或多个大容量存储设备,或者既接收又传递数据。然而,计算机不需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说,包括半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
虽然本专利文件包含许多细节,但这些细节不应被解释为对任何发明或可要求保护的范围的限制,而是作为特定于特定发明的特定实施例的特征的描述。在本专利文件中,在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外,尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下,可以从所要求保护的组合中去除来自该组合的一个或多个特征,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应该被理解为要求以所示的特定顺序或按顺序执行这样的操作,或者执行所有示出的操作,以实现期望的结果。此外,在本专利文件中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都要求这样的分离。
仅描述了几个实现方式和示例,并且可以基于本专利文件中描述和示出的内容来做出其他实现方式、增强和变型。

Claims (18)

1.一种视频处理方法,包括:
构建扩展Merge模式EMM候选列表;
基于当前块的比特流表示中的比特的第一集合来确定由所述当前块从所述列表中继承的运动信息;
基于所述比特流表示中的比特的第二集合来确定所述当前块的被信令通知的运动信息;并且
基于所述EMM候选列表和所述被信令通知的运动信息来执行所述当前块与所述比特流表示之间的转换,
其中,由所述当前块继承的所述运动信息包括另一个块的如下运动信息中的至少一个:预测方向、参考图像、运动矢量、局部亮度补偿LIC标志和运动矢量差异MVD精度,
其中,所述被信令通知的运动信息包括所述当前块的预测运动信息或所述当前块的运动矢量差异MVD信息,
其中,构建所述EMM候选列表包括将单向候选插入所述EMM候选列表中,并且
其中,所述单向候选是从双向候选生成的。
2.根据权利要求1所述的方法,其中使用预测编码对所述比特的第二集合进行编码。
3.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将来自空间相邻块的运动候选插入所述EMM候选列表中。
4.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将来自时间相邻块的运动候选插入所述EMM候选列表中。
5.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将来自非相邻块的运动候选插入所述EMM候选列表中。
6.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将帧速率上转换FRUC候选插入所述EMM候选列表中。
7.根据权利要求6所述的方法,其中对于所述FRUC候选,所述MVD精度设置为1/4并且所述LIC标志设置为假。
8.根据权利要求1所述的方法,其中所述单向候选的所述MVD精度和所述LIC标志是从所述双向候选复制的。
9.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将LY方向候选插入所述EMM候选列表中,其中所述LY方向候选由LX方向候选的缩放运动矢量生成,其中X={0,1}且Y=1-X,并且其中L0和L1表示参考图像列表。
10.根据权利要求9所述的方法,其中选择LX参考图像的对称参考图像作为所述LY方向的参考图像。
11.根据权利要求1或2所述的方法,其中构建所述EMM候选列表包括:
将组合的双向预测候选或零候选插入所述EMM候选列表中。
12.根据权利要求1或2所述的方法,其中预测方向不是继承的而是包含在所述被信令通知的运动信息中,并且所述方法进一步包括:
构建多个运动信息候选列表,
其中所述多个运动信息候选列表中的一个包括来自相同预测方向的多个候选,并且
其中由所述当前块继承的所述运动信息是从所述多个运动信息候选列表中的一个继承的。
13.根据权利要求12所述的方法,其中由所述当前块继承的所述运动信息识别参考图像、运动矢量、局部亮度补偿LIC标志和运动矢量差异MVD精度中的至少一个。
14.根据权利要求1或2所述的方法,其中使用两个索引来指示针对每个参考图像列表继承哪些候选,以用于所述当前块的双向预测编码。
15.根据权利要求1或2所述的方法,其中由所述当前块继承的所述运动信息包括运动矢量差异MVD精度。
16.根据权利要求1或2所述的方法,其中基于所述当前块的编码特性来选择性地使用所述方法,并且其中所述编码特性包括使用平移运动模型。
17.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使得所述处理器实现权利要求1至16中的任一项所述的方法。
18.一种存储有代码的非暂时性计算机可读介质,所述代码在由处理器执行时使得所述处理器实施权利要求1至16中的任一项所述的方法。
CN201910586671.3A 2018-06-29 2019-07-01 扩展Merge模式 Active CN110662055B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNPCT/CN2018/093646 2018-06-29
CN2018093646 2018-06-29

Publications (2)

Publication Number Publication Date
CN110662055A CN110662055A (zh) 2020-01-07
CN110662055B true CN110662055B (zh) 2022-07-05

Family

ID=67253944

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910585777.1A Active CN110662046B (zh) 2018-06-29 2019-07-01 视频处理方法、装置和可读存储介质
CN201910586671.3A Active CN110662055B (zh) 2018-06-29 2019-07-01 扩展Merge模式
CN201910586133.4A Active CN110662041B (zh) 2018-06-29 2019-07-01 视频比特流处理的方法和装置,存储视频比特流的方法和非暂时性计算机可读记录介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910585777.1A Active CN110662046B (zh) 2018-06-29 2019-07-01 视频处理方法、装置和可读存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910586133.4A Active CN110662041B (zh) 2018-06-29 2019-07-01 视频比特流处理的方法和装置,存储视频比特流的方法和非暂时性计算机可读记录介质

Country Status (3)

Country Link
CN (3) CN110662046B (zh)
TW (3) TWI736923B (zh)
WO (3) WO2020003281A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11051025B2 (en) * 2018-07-13 2021-06-29 Tencent America LLC Method and apparatus for video coding
CN112602322B (zh) * 2018-08-28 2023-08-22 鸿颖创新有限公司 编码视频数据的装置和方法
EP3997868A4 (en) 2019-08-10 2023-02-22 Beijing Bytedance Network Technology Co., Ltd. BUFFER MANAGEMENT DURING SUBPICTURE DECODING
EP4022917A4 (en) 2019-10-02 2022-11-30 Beijing Bytedance Network Technology Co., Ltd. SYNTAX FOR SUBPICTURE SIGNALING IN A VIDEO BITSTREAM
JP7482220B2 (ja) 2019-10-18 2024-05-13 北京字節跳動網絡技術有限公司 サブピクチャのパラメータセットシグナリングにおける構文制約
CN116034582A (zh) * 2020-01-12 2023-04-28 抖音视界有限公司 对视频编码和解码的约束
KR20220133251A (ko) * 2020-03-27 2022-10-04 가부시키가이샤 코나미 데지타루 엔타테인멘토 영상 배신 시스템, 영상 배신 제어 방법 및 컴퓨터 프로그램
WO2022214098A1 (en) * 2021-04-09 2022-10-13 Beijing Bytedance Network Technology Co., Ltd. Method, device, and medium for video processing
WO2022214077A1 (en) * 2021-04-10 2022-10-13 Beijing Bytedance Network Technology Co., Ltd. Gpm motion refinement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103561263A (zh) * 2013-11-06 2014-02-05 北京牡丹电子集团有限责任公司数字电视技术中心 基于运动矢量约束和加权运动矢量的运动补偿预测方法
CN107396106A (zh) * 2017-06-26 2017-11-24 深圳市亿联智能有限公司 一种基于h.265编码标准的视频加密算法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013009104A2 (ko) * 2011-07-12 2013-01-17 한국전자통신연구원 인터 예측 방법 및 그 장치
MX343471B (es) * 2011-08-29 2016-11-07 Ibex Pt Holdings Co Ltd Metodo para generar un bloque de prediccion en modo de prediccion de vector de movimiento avanzada (amvp).
US9357214B2 (en) * 2012-12-07 2016-05-31 Qualcomm Incorporated Advanced merge/skip mode and advanced motion vector prediction (AMVP) mode for 3D video
KR101854003B1 (ko) * 2013-07-02 2018-06-14 경희대학교 산학협력단 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법
EP3111641A4 (en) * 2014-04-01 2017-11-08 MediaTek Inc. Method of motion information coding
US10958927B2 (en) * 2015-03-27 2021-03-23 Qualcomm Incorporated Motion information derivation mode determination in video coding
US10812791B2 (en) * 2016-09-16 2020-10-20 Qualcomm Incorporated Offset vector identification of temporal motion vector predictor
US10631002B2 (en) * 2016-09-30 2020-04-21 Qualcomm Incorporated Frame rate up-conversion coding mode
WO2018070632A1 (ko) * 2016-10-11 2018-04-19 엘지전자 주식회사 영상 코딩 시스템에서 영상 디코딩 방법 및 장치
CN107396102B (zh) * 2017-08-30 2019-10-08 中南大学 一种基于Merge技术运动矢量的帧间模式快速选择方法及装置
EP3468194A1 (en) * 2017-10-05 2019-04-10 Thomson Licensing Decoupled mode inference and prediction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103561263A (zh) * 2013-11-06 2014-02-05 北京牡丹电子集团有限责任公司数字电视技术中心 基于运动矢量约束和加权运动矢量的运动补偿预测方法
CN107396106A (zh) * 2017-06-26 2017-11-24 深圳市亿联智能有限公司 一种基于h.265编码标准的视频加密算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Algorithm description of Joint Exploration Test Model 2 (JEM2)";J. Chen et al;《Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 2nd Meeting: San Diego, USA, 20–26 February 2016》;20160226;第2.4节 *

Also Published As

Publication number Publication date
TW202002650A (zh) 2020-01-01
TWI736923B (zh) 2021-08-21
WO2020003276A1 (en) 2020-01-02
WO2020003281A1 (en) 2020-01-02
TW202002651A (zh) 2020-01-01
CN110662055A (zh) 2020-01-07
CN110662046B (zh) 2022-03-25
CN110662041B (zh) 2022-07-29
TW202017370A (zh) 2020-05-01
TWI731362B (zh) 2021-06-21
CN110662041A (zh) 2020-01-07
TWI722467B (zh) 2021-03-21
WO2020003273A1 (en) 2020-01-02
CN110662046A (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN110620932B (zh) 依赖模式的运动矢量差精度集
CN110581996B (zh) 子块解码器侧运动矢量细化
CN110662055B (zh) 扩展Merge模式
CN113170181A (zh) 块内拷贝模式中的仿射继承方法
CN110740321B (zh) 基于更新的运动矢量的运动预测
CN110662077B (zh) 用于视频编解码的对称性双向预测模式
CN111010570B (zh) 基于仿射运动信息的尺寸限制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant