CN113261298A - 用于视频编码的方法和装置 - Google Patents

用于视频编码的方法和装置 Download PDF

Info

Publication number
CN113261298A
CN113261298A CN202080007021.XA CN202080007021A CN113261298A CN 113261298 A CN113261298 A CN 113261298A CN 202080007021 A CN202080007021 A CN 202080007021A CN 113261298 A CN113261298 A CN 113261298A
Authority
CN
China
Prior art keywords
inter prediction
prediction mode
inter
prediction
motion vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080007021.XA
Other languages
English (en)
Other versions
CN113261298B (zh
Inventor
徐萌
李翔
许晓中
李贵春
刘杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN113261298A publication Critical patent/CN113261298A/zh
Application granted granted Critical
Publication of CN113261298B publication Critical patent/CN113261298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开内容的各方面提供了用于视频编码/解码的方法和装置。在一些示例中,用于视频解码的装置包括接收电路和处理电路。处理电路从编码的视频比特流解码当前块的预测信息。预测信息指示与合并标志为假相关联的帧间预测模式的子集。然后,处理电路解码至少附加标志,附加标志用于从帧间预测模式的子集中选择特定帧间预测模式。此外,处理电路根据特定帧间预测模式重建当前块的样本。

Description

用于视频编码的方法和装置
引用并入
本申请要求2020年1月2日提交的美国专利申请第16/733,038号“METHOD ANDAPPARATUS FOR VIDEO CODING”的优先权权益,其要求2019年1月5日提交的美国临时申请第62/788,835号“SIGNALING FOR NON-MERGE INTER MODES”的优先权权益。因此,这些在先申请的全部公开内容通过引用整体并入本文中。
技术领域
本公开内容描述了总体上涉及视频编码的实施方式。
背景技术
本文中提供的背景描述是为了总体上呈现本公开内容的上下文的目的。目前署名的发明人的工作,即在此背景技术部分以及在提交时不会构成现有技术的说明书的方面中描述的工作,既没有被明确地也没有被隐含地承认为针对本公开内容的现有技术。
可以使用具有运动补偿的帧间图片预测来执行视频编码和解码。未压缩的数字视频可以包括一系列图片,每个图片的空间维度为例如1920×1080个亮度样本以及相关联的色度样本。该一系列图片可以具有固定的或可变的图片速率(也被非正式地称为帧速率),例如每秒60幅图片或60Hz。未压缩的视频具有很高的比特率要求。例如,每样本8位的1080p60 4:2:0视频(60Hz帧速率处的1920×1080亮度样本分辨率)需要接近1.5Gbit/s带宽。一小时的这样的视频需要超过600千兆字节的存储空间。
视频编码和解码的一个目的可以是通过压缩来减少输入视频信号中的冗余。压缩可以帮助降低上述带宽需求或存储空间需求,在一些情况下可以降低两个或更多个数量级。可以采用无损压缩、有损压缩两者及其组合。无损压缩是指可以从压缩的原始信号重建出原始信号的精确副本的技术。当使用有损压缩时,重建的信号可能与原始信号不同,但原始信号与重建的信号之间的失真足够小,使得重建的信号可用于预期应用。在视频的情况下,广泛采用有损压缩。容忍的失真量取决于应用;例如,某些消费者流式传输应用的用户可能比电视分发应用的用户容忍更高的失真。能够实现的压缩比可反映出:更高的可允许/可容忍的失真能够产生更高的压缩比。
运动补偿可以是有损压缩技术,并且可以涉及以下技术:来自先前重建的图片或其一部分(参考图片)的样本数据的块,在沿运动矢量(以下称为MV)所指示的方向被空间偏移之后,用来预测新重建的图片或图片部分。在一些情况下,参考图片可以与当前正在重建的图片相同。MV可以具有X和Y两个维度,或三个维度,第三维度指示使用中的参考图片(后者可以间接地为时间维度)。
在一些视频压缩技术中,可以根据其他MV预测适用于样本数据的特定区域的MV,例如根据与样本数据的在空间上相邻于正在重建的区域的另一区域有关并且在解码顺序上先于该MV的MV来预测适用于样本数据的特定区域的MV。这样做可以大幅减少编码MV所需的数据量,从而消除冗余并且增大压缩。MV预测可以有效地发挥作用,原因在于,例如,在编码从摄像装置得出的输入视频信号(被称为自然视频)时存在以下统计可能性:比单个MV所适用的区域更大的区域沿相似方向移动,并且因此在一些情况下可以使用由相邻区域的MV得出相似运动矢量来预测该单个MV。这导致针对给定区域找到的与根据周围MV预测的MV相似或相同的MV,并且这又可以在熵编码之后用比直接对MV进行编码的情况下使用的位数更少的位数来表示。在一些情况下,MV预测可以是根据原始信号(即样本流)得出的信号(即MV)的无损压缩的示例。在其他情况下,MV预测本身可以是有损的,例如原因在于根据若干周围MV计算预测器时的舍入误差。
在H.265/HEVC(2016年12月,ITU-T H.265建议书中,“High Efficiency VideoCoding”)中描述了各种MV预测机制。在H.265提供的多种MV预测机制中,此处描述的是下文称为“空间合并”的技术。
参照图1,当前块(101)包括在运动搜索过程期间已由编码器发现的样本,根据已经进行空间偏移的相同大小的先前块,可预测该样本。可以根据与一个或更多个参考图片相关联的元数据来得出MV,而非对MV直接编码。例如,使用与被表示为A0、A1和B0、B1、B2(分别为102到106)的五个周围样本中的任一样本相关联的MV,根据(按解码次序)最近的参考图片相关联的元数据来得出MV。在H.265中,MV预测可以使用相邻块正在使用的相同参考图片的预测值。
发明内容
公开内容的各方面提供了用于视频编码/解码的方法和装置。在一些示例中,一种用于视频解码的装置包括接收电路和处理电路。处理电路从编码的视频比特流解码当前块的预测信息。预测信息指示与合并标志为假相关联的帧间预测模式的子集。然后,处理电路解码至少附加标志,附加标志用于从帧间预测模式的子集中选择特定帧间预测模式。此外,处理电路根据特定帧间预测模式重建当前块的样本。
在一些示例中,帧间预测模式的子集包括以下中的至少一个:运动矢量差分合并(merge with motion vector difference,MMVD)帧间预测模式、基于子块的时间运动矢量预测器(subblock based temporal motion vector predictor,SbTMVP)预测模式、组合帧间和帧内预测(combined inter and intra prediction,CIIP)帧间预测模式、三角帧间预测模式、仿射合并帧间预测模式、高级运动矢量预测器(advanced motion vectorpredictor,AMVP)帧间预测模式和仿射AMVP帧间预测模式。
在一些实施方式中,子集中的帧间预测模式中的每一个在预测中使用运动矢量差分。在示例中,高级运动矢量预测器(AMVP)帧间预测模式不在子集中。在另一示例中,高级运动矢量预测器(AMVP)帧间预测模式在子集中。
在实施方式中,当第一标志指示仿射模式时,处理电路解码第二标志,该第二标志用于从仿射合并帧间预测模式和仿射高级运动矢量预测器(AMVP)帧间预测模式中选择一个。
在另一实施方式中,处理电路解码与子集中的帧间预测模式分别对应的标志,以选择特定帧间预测模式。
在示例中,处理电路解码与子集中的排在子集中的最后的帧间预测模式之前的帧间预测模式分别对应的标志,并且当标志为假时选择最后的帧间预测模式。
在另一示例中,处理电路解码索引,该索引指示来自子集中的帧间预测模式的特定帧间预测模式。
本公开内容的各方面还提供一种存储指令的非暂态计算机可读介质,该指令在由用于视频解码的计算机执行时使计算机执行用于视频解码的方法。
附图说明
根据以下详细描述和附图,所公开的主题的另外的特征、性质和各种优点将变得更加明显,在附图中:
图1是一个示例中的当前块及其周围的空间合并候选的示意性图示。
图2是根据一个实施方式的通信系统(200)的简化框图的示意性图示。
图3是根据一个实施方式的通信系统(300)的简化框图的示意性图示。
图4是根据一个实施方式的解码器的简化框图的示意性图示。
图5是根据一个实施方式的编码器的简化框图的示意性图示。
图6示出了根据另一实施方式的编码器的框图。
图7示出了根据另一实施方式的解码器的框图。
图8示出了说明一些实施方式的冗余校验对的图。
图9示出了用于时间候选得出的示例。
图10示出了用于说明时间候选的位置的示例。
图11示出了根据本公开内容的一个实施方式的运动矢量差分合并模式(MMVD)的示例。
图12A至图12B示出了由控制点的运动信息描述的块的仿射运动场。
图13示出了每个子块的仿射运动矢量场的示例。
图14示出了仿射合并模式的示例。
图15示出了根据本公开内容的一些实施方式的空间相邻者和时间相邻者的示例。
图16示出了根据本公开内容的一些实施方式的空间相邻者的示例。
图17示出了根据本公开内容的一些实施方式的SbTVMP过程的示例。
图18示出了三角分区的示例。
图19示出了用于形成当前块的单预测候选列表的示例。
图20示出了根据本公开内容的一些实施方式的使用加权因数组来得出最终预测的示例。
图21示出了根据本公开内容的一些实施方式的使用加权因数组来得出最终预测的另一示例。
图22示出了用于三角分区的预测的示例。
图23示出了概述根据本公开内容的一些实施方式的过程示例的流程图。
图24是根据一个实施方式的计算机系统的示意性图示。
具体实施方式
图2示出了根据本公开内容的实施方式的通信系统(200)的简化框图。通信系统(200)包括多个终端装置,其可以经由例如网络(250)彼此通信。例如,通信系统(200)包括经由网络(250)互连的第一对终端装置(210)和(220)。在图2示例中,第一对终端装置(210)和(220)执行单向数据传输。例如,终端装置(210)可对视频数据(例如由终端装置(210)采集的视频图片流)进行编码以经由网络(250)传输到另一终端装置(220)。已编码的视频数据可以一个或更多个编码视频比特流形式传输。终端装置(220)可从网络(250)接收编码的视频数据,对编码的视频数据进行解码以恢复视频图片,并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务等应用中是较常见的。
在另一实施方式中,通信系统(200)包括第二对终端装置(230)和(240),其执行例如可能在视频会议期间发生的编码的视频数据的双向传输。对于双向数据传输,在示例中,终端装置(230)和(240)中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码,以经由网络(250)传输到终端装置(230)和(240)中的另一终端装置。终端装置(230)和(240)中的每个终端装置还可接收由终端装置(230)和(240)中的另一终端装置传输的编码的视频数据,并且可对编码的视频数据进行解码以恢复视频图片,并且可以根据恢复的视频数据在可访问的显示装置上显示视频图片。
在图2的示例中,终端装置(210)、(220)、(230)和(240)可以被示为服务器、个人计算机和智能电话,但本公开内容的原理可不限于此。本公开内容的实施方式可用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络(250)表示在终端装置(210)、(220)、(230)和(240)之间传送编码的视频数据的任意数目的网络,包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或互联网。出于本申请论述的目的,除非在下文中有所解释,否则网络(250)的架构和拓扑对于本公开内容的操作来说可能是无关紧要的。
图3示出了视频编码器和视频解码器在流式传输环境中的放置作为所公开的主题的应用示例。所公开的主题同样适用于其他支持视频的应用,包括例如视频会议、数字TV、将经压缩视频存储于包括CD、DVD、记忆棒等的数字介质上等。
流式传输系统可以包括采集子系统(313),该采集子系统可以包括例如数码摄像机的视频源(301),该视频源创建未压缩的视频图片流(302)。在示例中,视频图片流(302)包括由数码摄像机拍摄的样本。相较于编码的视频数据(304)(或编码的视频比特流),视频图片流(302)被描绘为粗线以强调高数据量的视频图片流,视频图片流(302)可由电子装置(320)处理,该电子装置(320)包括耦接到视频源(301)的视频编码器(303)。视频编码器(303)可以包括硬件、软件或其组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流(302),编码的视频数据(304)(或编码的视频比特流(304))被描绘为细线以强调较低数据量的编码的视频数据(304)(或编码的视频比特流(304)),其可存储在流式传输服务器(305)上以供将来使用。一个或更多个流式传输客户端子系统,例如图3中的客户端子系统(306)和客户端子系统(308),可以访问流式传输服务器(305)以检索编码的视频数据(304)的副本(307)和副本(309)。客户端子系统(306)可以包括例如电子装置(330)中的视频解码器(310)。视频解码器(310)对编码的视频数据的传入副本(307)进行解码,且产生可在显示器(312)(例如显示屏)或另一呈现装置(未描绘)上呈现的输出视频图片流(1)。在一些流式传输系统中,可以根据某些视频编码/压缩标准对编码的视频数据(304)、(307)和(309)(例如视频比特流)进行编码。该些标准的示例包括ITU-T H.265建议书。在示例中,正在开发的视频编码标准非正式地被称为通用视频编码(Versatile VideoCoding,VVC)。所公开的主题可用于VVC的上下文中。
应注意,电子装置(320)和(330)可以包括其他部件(未示出)。例如,电子装置(320)可以包括视频解码器(未示出),并且电子装置(330)还可以包括视频编码器(未示出)。
图4示出了根据本公开内容的实施方式的视频解码器(410)的框图。视频解码器(410)可以被包括在电子装置(430)中。电子装置(430)可以包括接收器(431)(例如接收电路)。视频解码器(410)可用于代替图3示例中的视频解码器(310)。
接收器(431)可以接收要由视频解码器(410)解码的一个或更多个编码的视频序列;在同一实施方式或另一实施方式中,一次接收一个编码的视频序列,其中每个编码的视频序列的解码独立于其他编码的视频序列。可以从信道(401)接收编码的视频序列,该信道可以是通向存储编码的视频数据的存储装置的硬件/软件链路。接收器(431)可以接收编码的视频数据以及其他数据,例如,可转发到它们各自的使用实体(未描绘)的编码的音频数据和/或辅助数据流。接收器(431)可以将编码的视频序列与其他数据分开。为了防止网络抖动,缓冲存储器(415)可以耦接在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420)”)之间。在某些应用中,缓冲存储器(415)是视频解码器(410)的一部分。在其他应用中,缓冲存储器(415)可以在视频解码器(410)的外部(未描绘)。在又一些其他应用中,在视频解码器(410)的外部可以存在缓冲存储器(未描绘)以例如防止网络抖动,并且此外在视频解码器(410)的内部可以存在另外的缓冲存储器(415)以例如处理播出定时。而当接收器(431)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时,也可能不需要缓冲存储器(415),或缓冲存储器可以是小的。当然,为了在诸如互联网的尽力服务分组网络上使用,也可能需要缓冲存储器(415),该缓冲存储器可相对较大且可有利地具有适应性大小,且可至少部分地在操作系统或视频解码器(410)外部的类似元件(未描绘)中实现。
视频解码器(410)可以包括解析器(420)以根据编码的视频序列重建符号(421)。这些符号的类别包括用于管理视频解码器(410)的操作的信息,以及用以控制呈现装置(412)(例如,显示屏)等呈现装置的潜在信息,该呈现装置不是电子装置(430)的组成部分,但可耦接到电子装置(430),如图4中所示。用于呈现装置的控制信息可以是辅助增强信息(Supplemental Enhancement Information,SEI消息)或视频可用性信息(VideoUsability Information,VUI)参数集片段(未描绘)的形式。解析器(420)可以对接收到的编码的视频序列进行解析/熵解码。编码的视频序列的编码可根据视频编码技术或标准进行,且可遵循各种原理,包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等。解析器(420)可以基于对应于组的至少一个参数,从编码的视频序列提取用于视频解码器中的像素的子组中的至少一个子组的子组参数集。子组可以包括图片组(Group of Picture,GOP)、图片、图块、切片、宏块、编码单元(Coding Unit,CU)、块、变换单元(Transform Unit,TU)、预测单元(Prediction Unit,PU)等。解析器(420)还可以从编码的视频序列提取信息,例如变换系数、量化器参数值、运动矢量等。
解析器(420)可以对从缓冲存储器(415)接收的视频序列执行熵解码/解析操作,从而创建符号(421)。
取决于编码的视频图片或一部分编码的视频图片(例如:帧间图片和帧内图片、帧间块和帧内块)的类型以及其他因素,符号(421)的重建可以涉及多个不同单元。涉及哪些单元以及涉及方式可以由解析器(420)从编码的视频序列解析的子组控制信息控制。为了简洁起见,未描绘解析器(420)与下文的多个单元之间的这样的子组控制信息流。
除已经提及的功能块以外,视频解码器(410)可以在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实现方式中,这些单元中的许多单元彼此紧密交互并且可以至少部分地彼此集成。然而,出于描述所公开主题的目的,概念上细分成下文的功能单元是适当的。
第一单元是缩放器/逆变换单元(451)。缩放器/逆变换单元(451)从解析器(420)接收作为符号(421)的量化变换系数以及控制信息,包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可以输出包括样本值的块,该样本值可以被输入到聚合器(455)中。
在一些情况下,缩放器/逆变换单元(451)的输出样本可以属于帧内编码块;也就是说:不使用来自先前重建的图片的预测性信息,但可以使用来自当前图片的先前重建部分的预测性信息的块。这样的预测性信息可以由帧内图片预测单元(452)提供。在一些情况下,帧内图片预测单元(452)使用从当前图片缓冲器(458)提取的周围已重建信息,生成大小和形状与正在重建的块的大小和形状相同的块。当前图片缓冲器458例如缓冲部分重建的当前图片和/或完全重建的当前图片。在一些情况下,聚合器(455)基于每个样本,将帧内预测单元(452)生成的预测信息添加到由缩放器/逆变换单元(451)提供的输出样本信息。
在其他情况下,缩放器/逆变换单元(451)的输出样本可以属于帧间编码和潜在运动补偿块。在这样的情况下,运动补偿预测单元(453)可访问参考图片存储器(457)以提取用于预测的样本。在根据属于块的符号(421)对提取的样本进行运动补偿之后,这些样本可以由聚合器(455)添加到缩放器/逆变换单元(451)的输出(在这种情况下被称作残差样本或残差信号),从而生成输出样本信息。运动补偿预测单元(453)从参考图片存储器(457)内的地址获取预测样本可以受到运动矢量控制,运动矢量以符号(421)的形式而供运动补偿预测单元(453)使用,符号(421)例如可以具有X、Y和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时,从参考图片存储器(457)提取的样本值的内插、运动矢量预测机制等。
聚合器(455)的输出样本可在环路滤波器单元(456)中被各种环路滤波技术采用。视频压缩技术可以包括环路内滤波器技术,环路内滤波器技术受控于包括在编码的视频序列(也称为编码的视频比特流流)中的参数,且参数作为来自解析器(420)的符号(421)可用于环路滤波器单元(456),但是,视频压缩技术还可响应于在对编码的图片或编码的视频序列的先前(按解码次序)部分进行解码期间获得的元信息,以及响应于先前重建且环路滤波的样本值。
环路滤波器单元(456)的输出可以是样本流,样本流可以输出到呈现装置(412)以及存储在参考图片存储器(457),以用于将来的帧间图片预测。
一旦完全重建,某些编码的图片就可用作参考图片以用于将来预测。例如,一旦对应于当前图片的编码的图片被完全重建,且编码的图片(通过例如解析器(420))被识别为参考图片,则当前图片缓冲器(458)可变为参考图片存储器(457)的一部分,且可以在开始重建后续编码的图片之前重新分配新的当前图片缓冲器。
视频解码器(410)可以根据诸如ITU-T H.265建议书的标准中的预定视频压缩技术执行解码操作。在编码的视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件两者的意义上,编码的视频序列可以符合所使用的视频压缩技术或标准指定的语法。具体地,配置文件可以从视频压缩技术或标准中可用的所有工具中选择某些工具作为在配置文件下可供使用的仅有工具。对于合规性,还要求编码的视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下,层级限制最大图片大小、最大帧速率、最大重建样本速率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下,由层级设定的限制可以通过假想参考解码器(Hypothetical Reference Decoder,HRD)规范和在编码的视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。
在实施方式中,接收器(431)可以连同编码的视频一起接收附加(冗余)数据。附加数据可以是编码的视频序列的一部分。附加的数据可以由视频解码器(410)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可以呈例如时间、空间或信噪比(signal noise ratio,SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。
图5示出了根据本公开内容的一个实施方式的视频编码器(503)的框图。视频编码器(503)被包括在电子装置(520)中。电子装置(520)包括发送器(540)(例如发送电路)。视频编码器(503)可用于代替图3示例中的视频编码器(303)。
视频编码器(503)可以从视频源(501)(并非图5示例中的电子装置(520)的一部分)接收视频样本,视频源可以采集要由视频编码器(503)编码的视频图像。在另一实施方式中,视频源(501)是电子装置(520)的一部分。
视频源(501)可以提供要由视频编码器(503)编码的呈数字视频样本流形式的源视频序列,该数字视频样本流可以具有任何合适的位深度(例如:8位、10位、12位……)、任何色彩空间(例如,BT.601Y CrCB、RGB……)和任何合适的采样结构(例如Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中,视频源(501)可以是存储先前已准备的视频的存储装置。在视频会议系统中,视频源(501)可以是捕获本地图像信息作为视频序列的摄像机。可以将视频数据提供为多个单独的图片,当按顺序观看时,这些图片被赋予运动。图片自身可以被组织为空间像素阵列,其中,取决于所用的取样结构、色彩空间等,每个像素可以包括一个或更多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。
根据一个实施方式,视频编码器(503)可以实时或在由应用所要求的任何其他时间约束下,将源视频序列的图片编码且压缩成编码的视频序列(543)。施行适当的编码速度是控制器(550)的一个功能。在一些实施方式中,控制器(550)控制如下文所描述的其他功能单元且在功能上耦接到其他功能单元。为了简洁起见,未描绘耦接。由控制器(550)设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片组(group of picture,GOP)布局,最大运动矢量搜索范围等。控制器(550)可以被配置成具有其他合适的功能,这些功能涉及针对某一系统设计优化的视频编码器(503)。
在一些实施方式中,视频编码器(503)被配置成在编码环路中进行操作。作为简单的描述,在示例中,编码环路可以包括源编码器(530)(例如,负责基于要编码的输入图片和参考图片创建符号,例如符号流)和嵌入于视频编码器(503)中的(本地)解码器(533)。解码器(533)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在所公开的主题考虑的视频压缩技术中,符号与编码的视频比特流之间的任何压缩是无损的)。重建的样本流(样本数据)被输入到参考图片存储器(534)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果,因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是位精确的。换言之,编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。
“本地”解码器(533)的操作可以与例如已在上文结合图4详细描述的视频解码器(410)的“远程”解码器相同。然而,另外简要参照图4,当符号可用且熵编码器(545)和解析器(420)能够无损地将符号编码/解码为编码的视频序列时,包括缓冲存储器(415)和解析器(420)的视频解码器(410)的熵解码部分,可能无法完全在本地解码器(533)中实现。
此时可以观察到,除存在于解码器中的解析/熵解码之外的任何解码器技术,也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因,所公开的主题侧重于解码器操作。可以简化编码器技术的描述,因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述,并且在下文提供。
在操作期间,在一些示例中,源编码器(530)可以执行运动补偿预测编码,参考来自视频序列中被指定为“参考图片”的一个或更多个先前编码的图片,运动补偿预测编码对输入图片进行预测性编码。以此方式,编码引擎(532)对输入图片的像素块与参考图片的像素块之间的差异进行编码,参考图片可以被选择为输入图片的预测参考。
本地视频解码器(533)可以基于源编码器(530)创建的符号,对可以指定为参考图片的图片的编码的视频数据进行解码。编码引擎(532)的操作可以有利地是有损过程。当编码的视频数据可以在视频解码器(图5中未示出)处被解码时,重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(533)复制解码过程,解码过程可以由视频解码器对参考图片执行,且可以使重建的参考图片存储在参考图片存储器(534)中。以此方式,视频编码器(503)可以在本地存储重建的参考图片的副本,副本与将由远端视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。
预测器(535)可针对编码引擎(532)执行预测搜索。也就是说,对于要编码的新图片,预测器(535)可在参考图片存储器(534)中搜索可以作为新图片的适当的预测参考的样本数据(作为候选参考像素块)或某些元数据,例如参考图片运动矢量、块形状等。预测器(535)可以基于样本块逐像素块操作,以找到适当的预测参考。在一些情况下,如根据预测器(535)获得的搜索结果确定的,输入图片可以具有从参考图片存储器(534)中存储的多个参考图片取得的预测参考。
控制器(550)可以管理源编码器(530)的编码操作,包括例如设置用于对视频数据进行编码的参数和子组参数。
可以在熵编码器(545)中对所有上述功能单元的输出进行熵编码。熵编码器(545)根据诸如霍夫曼编码、可变长度编码、算术编码等的技术对各种功能单元生成的符号进行无损压缩,从而将符号转换成编码的视频序列。
发送器(540)可以缓冲由熵编码器(545)创建的编码的视频序列,从而为经由通信信道(560)进行发送做准备,通信信道可以是通向将存储编码的视频数据的存储装置的硬件/软件链路。发送器(540)可以将来自视频编码器(503)的编码的视频数据与要发送的其他数据例如编码的音频数据和/或辅助数据流(未示出来源)进行合并。
控制器(550)可以管理视频编码器(503)的操作。在编码期间,控制器(550)可以为每个编码的图片分配某个编码的图片类型,但这可能影响可应用于相应的图片的编码技术。例如,通常可以将图片分配为以下任一种图片类型:
帧内图片(I图片),其可以是不将序列中的任何其他图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片,包括例如独立解码器刷新(Independent Decoder Refresh,“IDR”)图片。所属领域的技术人员了解I图片的变型及其相应的应用和特征。
预测性图片(P图片),其可以是可以使用帧内预测或帧间预测进行编码和解码的图片,帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。
双向预测性图片(B图片),其可以是可以使用帧内预测或帧间预测进行编码和解码的图片,帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地,多个预测性图片可以使用多于两个参考图片和相关联元数据以用于重建单个块。
源图片通常可以在空间上细分成多个样本块(例如,4×4、8×8、4×8或16×16个样本的块),且逐块进行编码。这些块可以参考其他(已编码的)块进行预测编码,根据应用于块的相应图片的编码分配来确定其他块。例如,I图片的块可进行非预测编码,或块可以参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码的参考图片经由空间预测或经由时域预测进行预测编码。B图片的块可以参考一个或两个先前编码的参考图片经由空间预测或经由时域预测进行预测编码。
视频编码器(503)可以根据诸如ITU-T H.265建议书的预定的视频编码技术或标准执行编码操作。在其操作中,视频编码器(503)可以执行各种压缩操作,包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此,编码的视频数据可以符合所用视频编码技术或标准指定的语法。
在实施方式中,发送器(540)可以连同编码的视频一起发送附加数据。源编码器(530)可以包括这样的数据作为编码的视频序列的一部分。附加数据可以包括时间/空间/SNR增强层、诸如冗余图片和切片的其他形式的冗余数据、SEI消息、VUI参数集片段等。
视频可以被采集为呈时间序列的多个源图片(视频图片)。帧内图片预测(常常简化为帧内预测)利用给定图片中的空间相关性,而帧间图片预测则利用图片之间的(时间或其他)相关性。在示例中,将正在编码/解码的特定图片分割成块,正在编码/解码的特定图片被称作当前图片。在当前图片中的块类似于视频中先前编码的且仍被缓冲的参考图片中的参考块时,可以通过被称作运动矢量的矢量对当前图片中的块进行编码。运动矢量指向参考图片中的参考块,且在使用多个参考图片的情况下,运动矢量可以具有识别参考图片的第三维度。
在一些实施方式中,双向预测技术可以用于帧间图片预测中。根据双向预测技术,使用两个参考图片,例如按解码次序都在视频中的当前图片之前(但按显示次序可能分别是过去和将来)第一参考图片和第二参考图片。可以通过指向第一参考图片中的第一参考块的第一运动矢量和指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。可以通过第一参考块和第二参考块的组合来预测块。
此外,合并模式技术可以用于帧间图片预测中以改善编码效率。
根据本公开内容的一些实施方式,以块为单位执行诸如帧间图片预测和帧内图片预测的预测。例如,根据HEVC标准,将视频图片序列中的图片分割成编码树单元(codingtree unit,CTU)以用于压缩,图片中的CTU具有相同大小,例如64×64像素、32×32像素或16×16像素。一般来说,CTU包括三个编码树块(coding tree block,CTB),三个编码树块是一个亮度CTB和两个色度CTB。还可以将每个CTU以四叉树拆分为一个或多个编码单元(coding unit,CU)。例如,可以将64×64像素的CTU拆分为一个64×64像素的CU,或4个32×32像素的CU,或16个16×16像素的CU。在示例中,分析每个CU以确定用于CU的预测类型,例如帧间预测类型或帧内预测类型。取决于时间和/或空间可预测性,将CU拆分为一个或更多个预测单元(prediction unit,PU)。通常,每个PU包括亮度预测块(prediction block,PB)和两个色度PB。在实施方式中,编码(编码/解码)中的预测操作以预测块为单位来执行。使用亮度预测块作为预测块的示例,预测块包括像素值(例如,亮度值)的矩阵,例如8×8像素、16×16像素、8×16像素、16×8像素等。
图6示出了根据本公开内容的另一实施方式的视频编码器(603)的图。视频编码器(603)被配置成接收视频图片序列中的当前视频图片内的样本值的处理块(例如,预测块),并且将处理块编码到作为编码视频序列的一部分的编码图片。在示例中,视频编码器(603)用于代替图3示例中的视频编码器(303)。
在HEVC示例中,视频编码器(603)接收用于处理块的样本值的矩阵,处理块为诸如8×8样本的预测块等。视频编码器(603)使用例如率失真(rate-distortion)优化来确定是否使用帧内模式、帧间模式或双向预测模式对处理块最佳地编码。当要以帧内模式对处理块进行编码时,视频编码器(603)可以使用帧内预测技术以将处理块编码到编码图片中;并且当要以帧间模式或双向预测模式对处理块进行编码时,视频编码器(603)可以分别使用帧间预测或双向预测技术以将处理块编码到编码图片中。在某些视频编码技术中,合并模式可以是在不借助于预测值外部的已编码的运动矢量分量的情况下从一个或更多个运动矢量预测值得到运动矢量的帧间图片预测子模式。在某些其他视频编码技术中,可以存在适用于主题块的运动矢量分量。在示例中,视频编码器(603)包括其他部件,例如,确定处理块的模式的模式决策模块(未示出)。
在图6示例中,视频编码器(603)包括如图6所示的耦接在一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)以及熵编码器(625)。
帧间编码器(630)被配置成:接收当前块(例如,处理块)的样本、将该块与参考图片中的一个或更多个参考块(例如,先前图片和之后图片中的块)进行比较、生成帧间预测信息(例如,根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术来计算帧间预测结果(例如,预测的块)。在一些示例中,参考图片是基于编码的视频信息被解码的解码的参考图片。
帧内编码器(622)被配置成接收当前块(例如,处理块)的样本、在一些情况下将该块与同一图片中已编码的块进行比较、生成变换之后的量化系数、以及在一些情况下还生成帧内预测信息(例如,根据一个或更多个帧内编码技术的帧内预测方向信息)。在示例中,帧内编码器(622)还基于帧内预测信息和同一图片中的参考块计算帧内预测结果(例如,预测的块)。
通用控制器(621)被配置成确定通用控制数据,并且基于通用控制数据控制视频编码器(603)的其他部件。在示例中,通用控制器(621)确定块的模式,并且基于该模式将控制信号提供给开关(626)。例如,当模式是帧内模式时,通用控制器(621)控制开关(626)以选择帧内模式结果来供残差计算器(623)使用,并且控制熵编码器(625)以选择帧内预测信息并且将帧内预测信息包括在比特流中;以及当模式是帧间模式时,通用控制器(621)控制开关(626)以选择帧间预测结果来供残差计算器(623)使用,并且控制熵编码器(625)以选择帧间预测信息并且将帧间预测信息包括在比特流中。
残差计算器(623)被配置成计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差异(残差数据)。残差编码器(624)被配置成基于残差数据进行操作以对残差数据进行编码从而生成变换系数。在示例中,残差编码器(624)被配置成将残差数据从空间域转换到频域,并且生成变换系数。然后,变换系数经受量化处理以获得量化的变换系数。在各种实施方式中,视频编码器(603)还包括残差解码器(628)。残差解码器(628)被配置成执行逆变换,并且生成解码残差数据。解码残差数据可以适当地由帧内编码器(622)和帧间编码器(630)使用。例如,帧间编码器(630)可以基于解码残差数据和帧间预测信息来生成解码块,并且帧内编码器(622)可以基于解码残差数据和帧内预测信息来生成解码块。在一些示例中,适当处理解码块以生成解码图片,并且该经解码图片可以在存储器电路(未示出)中缓冲并且用作参考图片。
熵编码器(625)被配置成对比特流进行格式化以包括编码块。熵编码器(625)被配置成根据诸如HEVC标准的合适标准包括各种信息。在示例中,熵编码器(625)被配置成在比特流中包括通用控制数据、选择的预测信息(例如,帧内预测信息或帧间预测信息)、残差信息和其他合适的信息。注意,根据所公开的主题,当在帧间模式或双向预测模式的合并子模式中对块进行编码时,不存在残差信息。
图7示出了根据本公开内容的另一实施方式的视频解码器(710)的图。视频解码器(710)被配置成接收作为编码视频序列的一部分的已编码图片,并且对已编码图片进行解码以生成重建的图片。在示例中,视频解码器(710)用于代替图3示例中的视频解码器(310)。
在图7示例中,视频解码器(710)包括如图7所示的耦接在一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)以及帧内解码器(772)。
熵解码器(771)可以被配置成根据已编码图片来重建某些符号,这些符号表示构成已编码图片的语法元素。这样的符号可以包括例如对块进行编码的模式(例如,帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可以识别分别供帧内解码器(772)或帧间解码器(780)使用以进行预测的某些样本或元数据的预测信息(例如,帧内预测信息或帧间预测信息)、呈例如量化的变换系数的形式的残差信息等。在示例中,当预测模式是帧间或双向预测模式时,将帧间预测信息提供给帧间解码器(780);以及当预测类型是帧内预测类型时,将帧内预测信息提供给帧内解码器(772)。残差信息可以经受逆量化并且被提供给残差解码器(773)。
帧间解码器(780)被配置成接收帧间预测信息,并且基于帧间预测信息生成帧间预测结果。
帧内解码器(772)被配置成接收帧内预测信息,并且基于帧内预测信息生成预测结果。
残差解码器(773)被配置成执行逆量化以提取去量化变换系数,并且处理去量化变换系数以将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(以包括量化器参数(Quantizer Parameter,QP)),并且该信息可以由熵解码器(771)提供(未绘出数据路径,因为这可能仅是低量控制信息)。
重建模块(774)被配置成在空间域中将由残差解码器(773)输出的残差与预测结果(由帧间预测模块或帧内预测模块输出,视情况而定)进行组合以形成重建块,该重建块可以是重建图片的一部分,该重建图片又可以是重建视频的一部分。注意,可以执行诸如解块操作等的其他合适的操作来提高视觉质量。
注意,可以使用任何合适的技术来实现视频编码器(303)、(503)和(603),以及视频解码器(310)、(410)和(710)。在实施方式中,可以使用一个或更多个集成电路来实现视频编码器(303)、(503)和(603),以及视频解码器(310)、(410)和(710)。在另一实施方式中,可以使用执行软件指令的一个或更多个处理器来实现视频编码器(303)、(503)和(503),以及视频解码器(310)、(410)和(710)。
本公开内容的各方面提供了用于高级视频编解码器中的非合并帧间模式的信号发送技术。更具体地,对隐式地得出的运动矢量预测器的解释和信号发送进行修改,使得可以实现更好的压缩效率。
诸如HEVC、VVC等的各种编码标准被开发以包括新技术。
在VVC的一些示例中,对于每个帧间预测CU,运动参数包括运动矢量、参考图片索引和参考图片列表使用索引,以及将VVC的新编码特征用于帧间预测样本生成所需的附加信息。可以以显式或隐式方式用信号发送运动参数。在示例中,当以跳过模式对CU进行编码时,CU与一个PU相关联且不具有显著残余系数,不具有编码运动矢量增量或参考图片索引。在另一示例中,指定合并模式,由此根据相邻CU获得用于当前CU的运动参数,包括空间候选和时间候选,以及在VVC中引入的额外调度。合并模式可以应用于任何帧间预测CU,而不仅应用于跳过模式。合并模式的替选方案是运动参数的显式传输,其中针对每个CU显式地用信号发送运动矢量、每个参考图片列表的对应参考图片索引和参考图片列表使用标志以及其他所需信息。
除了HEVC中的帧间编码特征之外,VVC测试模型3(VTM3)包括若干新的且改进的帧间预测编码工具,例如扩展合并预测、运动矢量差分合并模式(merge mode with motionvector difference,MMVD)、仿射运动补偿预测、基于子块的时间运动矢量预测器(subblock-based temporal motion vector predictor,SbTMVP)、三角分区预测、组合帧间和帧内预测(combined inter and intra prediction,CIIP)等。在本公开内容中描述了上述帧间预测编码工具的一些特征。
在一些示例中,在VTM3中使用扩展合并预测。具体地,在VTM3中,通过以如下顺序包括五种类型的候选来构建合并候选列表:(1)来自空间相邻CU的空间运动矢量预测器(motion vector predictor,MVP);(2)来自并置CU的时间MVP;(3)来自FIFO表的基于历史的MVP;(4)成对平均MVP;以及(5)零MV。在一些实施方式中,在合并候选列表构建中使用的技术包含空间候选得出、时间候选得出、基于历史的合并候选得出和逐对平均合并候选得出。
在示例中,在切片报头中用信号发送合并列表的大小,并且在VTM3中合并列表的最大允许大小为6。对于在合并模式下被编码的每个CU,使用截断一元二进制化(TU)来编码最佳合并候选的索引。使用上下文编码来编码合并索引的第一二进制数,并且可以将旁路编码用于其他二进制数。
对于空间候选得出,根据本公开内容的方面,VVC中空间合并候选的得出类似于HEVC中的空间合并候选的得出。例如,在位于图1所描绘的位置A0至A1和B0至B2的候选中选择最多四个合并候选。得出的顺序是A1、B1、B0、A0和B2。仅在位置A1、B1、B0、A0的任何CU不可用(例如,属于另一切片或图块)或被帧内编码时才考虑位置B2。在添加位置A1处的候选之后,对剩余候选的添加经受冗余校验,这确保从列表中排除具有相同运动信息的候选,从而提高编码效率。为了降低计算复杂度,在所提到的冗余校验中,不是所有可能的候选对都被考虑。相反,仅考虑图8中用箭头链接的对,并且仅在用于冗余校验的相应候选不具有相同运动信息时才将候选添加到列表。
对于时间候选得出,根据本公开内容的方面,仅将一个候选添加到列表。特别地,在时间合并候选的得出中,基于属于并置参考图片的同位CU得出缩放的运动矢量。在切片报头中显式地用信号发送要用于得出同位CU的参考图片列表。
图9示出了用于时间候选得出的示例。图9示出了图片序列,其包括具有当前CU的当前图片、具有当前CU的并置CU的并置图片、当前图片的参考图片和并置图片的参考图片。在示例中,当前图片的参考图片与当前图片之间的图片顺序计数(picture order count,POC)距离(例如,POC的差)被表示为tb,并且并置图片的参考图片与并置图片之间的POC距离被表示为td。时间合并候选的缩放运动矢量由图9中的910示出,其被使用POC距离tb和td根据同位CU的运动矢量920进行缩放。时间合并候选的参考图片索引被设置成等于零。
图10示出了用于说明在候选C0与C1之间选择的时间候选的位置的示例。当位置C0处的CU不可用,或被帧内编码,或在CTU的当前行外部时,那么可以使用位置C1。否则,将位置C0用于时间合并候选的得出。
将基于历史的MVP(history-based MVP,HMVP)合并候选在空间MVP和时间MVP(temporal MVP,TMVP)之后添加到合并列表。在一些示例中,对于基于历史的合并候选得出,先前编码块的运动信息被存储在表中并且被用作当前CU的MVP。在编码/解码过程期间维持具有多个HMVP候选的表。当开始对新CTU行的解码时,该表被复位(清空)。每当存在非子块帧间编码CU时,将相关联的运动信息添加到表的最后条目作为新HMVP候选。
在一些示例中,例如在VTM3中,HMVP表大小S被设置成6,这指示可以将最多达6个基于历史的MVP(HMVP)候选添加到表中。在将新的运动候选插入到表中时,利用有约束的先进先出(first-in-first-out,FIFO)规则,其中,首先应用冗余校验以找到表中是否存在相同的HMVP。如果在表中找到相同的HMVP,则从表中去除相同的HMVP,并且之后所有HMVP候选都可以前移。
HMVP候选可以用于合并候选列表构建过程中。按顺序检查表中的最新若干HMVP候选,并将其在TMVP候选之后插入候选列表。将冗余校验应用于HMVP候选至空间或时间合并候选。
在一些示例中,为了减少冗余校验操作的数量,引入了一些简化。在示例中,将用于合并列表生成的HMPV候选的数量设置为(N<=4)?M:(8-N),其中N表示合并列表中的现有候选的数量,并且M表示表中的可用HMVP候选的数量。
在另一示例中,一旦可用合并候选的总数量比所允许的合并候选的最大值低1,那么终止根据HMVP的合并候选列表构建过程。
对于逐对平均合并候选得出,通过对现有合并候选列表中的预定义候选对求平均来生成逐对平均候选。在一些示例中,预定义对被定义为{(0,1)、(0,2)、(1,2)、(0,3)、(1,3)、(2,3)},其中数字表示合并候选列表中的合并索引。分别针对每个参考列表计算平均运动矢量。当两个运动矢量在一个参考列表中都可用时,即使当这两个运动矢量指向不同的参考图片时,也对它们求平均。当参考列表中只有一个运动矢量可用时,直接使用该一个运动矢量;如果在参考列表中没有运动矢量可用,则参考列表无效。
在一些示例中,当在添加逐对平均合并候选之后合并列表未满时,将零MVP插入末尾直到遇到最大合并候选数量。
除了其中将隐式地得出的运动信息直接用于当前CU的预测样本生成的合并模式之外,在VVC中引入运动矢量差分合并模式(merge mode with motion vectordifference,MMVD)。在一些示例中,在发送跳过标志和合并标志之后立即用信号发送MMVD标志,以指定MMVD模式是否被用于CU。
在MMVD中,在选择合并候选之后,通过用信号发送的运动矢量差分(motionvector difference,MVD)信息进一步改进运动信息。在一些示例中,信息包括合并候选标志、指定运动大小的索引,以及用于指示运动方向的索引。在MMVD模式中,合并列表中的前两个候选中的一个被选择用作MV基础。用信号发送合并候选标志以指定使用哪一个。
在一些示例中,使用距离索引以指定运动大小信息并且指示从起始点的预定义偏移。
图11示出了根据本公开内容的实施方式的MMVD的示例。例如,起始点MV由(1111)(例如根据预测方向IDX和基础候选IDX)示出。将该偏移添加到起始MV的水平分量或垂直分量。表1中示出了距离索引与预定义偏移的关系的示例。
表1-距离索引与预定义偏移的关系
距离IDX 0 1 2 3 4 5 6 7
偏移(以亮度样本为单位) 1/4 1/2 1 2 4 8 16 32
在一些示例中,方向索引表示MVD相对于起始点的方向。方向索引可以表示如表2所示的四个方向。应注意,MVD符号的含义可以根据起始MV的信息而变化。当该起始MV为具有指向当前图像的同一侧的两个列表的双预测MV或单预测MV时(即,两个参考图像的POC均大于当前图像的POC,或均小于该当前图像的POC),表2中的符号指定添加到起始MV的MV偏移的符号。当起始MV为两个MV指向当前图像的不同侧的双预测MV时(即,一个参考图像的POC大于当前图像的POC,并且另一参考图像的POC小于当前图像的POC),表2中的符号指定添加到起始MV的list0 MV分量的MV偏移的符号,并且list1 MV的符号具有相反值。
表2-由方向索引指定的MV偏移的符号
方向IDX 00 01 10 11
x轴 + - N/A N/A
y轴 N/A N/A + -
对于仿射运动补偿预测,在HEVC中,仅将平移运动模型应用于运动补偿预测(motion compensation prediction,MCP)。真实世界具有多种运动,例如放大/缩小、旋转、透视运动和其他不规则运动。在VTM3中,应用基于块的仿射变换运动补偿预测。
图12A示出了由两个控制点的运动信息描述的块的仿射运动场(4参数仿射模型),并且图12B示出了由三个控制点描述的块的仿射运动场(6参数仿射模型)。
在一些实施方式中,4参数仿射运动模型,可以如式1得出块中的样本位置(x,y)处的运动矢量,以及6参数仿射运动模型,可以如式2得出块中的样本位置(x,y)处的运动矢量:
Figure BDA0003115821940000201
Figure BDA0003115821940000202
其中,(mv0x,mv0y)表示左上角控制点CP0的运动矢量,(mv1x,mv1y)是右上角控制点CP1的运动矢量,并且(mv2x,mv2y)是左下角控制点CP2的运动矢量。
为了简化运动补偿预测,应用基于块的仿射变换预测。
图13示出了每个子块的仿射MV场的示例。当前CU被划分为4×4亮度子块。为了得出每个4×4亮度子块的运动矢量,如图13所示,根据上式计算每个子块的中心样本的运动矢量,并舍入到1/16分数精度。然后,应用运动补偿内插滤波器以利用得出的运动矢量生成每个子块的预测。色度分量的子块大小也被设置成4×4。在示例中,将4×4色度子块的MV计算为四个相应4×4亮度子块的MV的平均。
可以使用两个仿射运动帧间预测模式,例如仿射合并(affine merge,AF_MERGE)模式和仿射高级MVP(affine advanced MVP,AMVP)模式。
对于仿射合并预测,在示例中,可以将AF_MERGE模式应用于宽度及高度两者均大于或等于8的CU。在AF_MERGE模式下,基于空间相邻CU的运动信息生成当前CU的控制点运动矢量(control point motion vector,CPMV)。在示例中,可以存在最多达五个CPMVP候选,并且用信号发送索引以指示将用于当前CU的那个CPMVP候选。在示例中,使用三种类型的CPVM候选来形成仿射合并候选列表。第一类型的CPMV候选是根据相邻CU的CPMV外推的继承仿射式合并候选。第二类型的CPMV候选是构建仿射合并候选CPMVP,其使用相邻CU的平移MV来得出。第三类型的CPMV候选是零MV。
在一些示例中,例如在VTM3中,可以使用最多两个继承仿射候选。在示例中,从相邻块的仿射运动模型得出两个继承仿射候选,一个来自左相邻CU(称为左预测器)且一个来自上方相邻CU(称为上方预测器)。在一些示例中,对于左预测器,扫描顺序为A0->A1,且对于上方预测器,扫描顺序为B0->B1->B2。在示例中,仅选择来自每侧的第一继承候选。在一些示例中,在两个继承候选之间不执行修建检查(pruning check)。当识别相邻仿射CU时,使用相邻仿射CU的控制点运动矢量来得出当前CU的仿射合并列表中的CPMVP候选。
图14示出了仿射合并模式的示例。如图14所示,当相邻的左下块A在仿射方式下被编码时,获得包含块A的CU的左上角、右上角与左下角的运动矢量mv2、mv3与mv4。当块A用4参数仿射模型进行编码时,根据mv2和mv3来计算当前CU的两个CPMV。在块A用6参数仿射模型进行编码的情况下,根据v2、mv3与mv4来计算当前CU的三个CPMV。
在一些示例中,构建仿射候选通过组合每个控制点的相邻平移运动信息来构建。控制点的运动信息可以是根据指定的空间相邻者和时间相邻者得出的。
图15示出了根据本公开内容的一些实施方式的空间相邻者(例如,A0至A2和B0至B3)和时间相邻者(例如,T)的示例。在示例中,CPMVk(k=1、2、3、4)表示第k控制点。对于CPMV1,检查B2->B3->A2块(->用于检查顺序),并且使用第一可用块的MV。对于CPMV2,检查B1->B0块,并且对于CPMV3,检查A1->A0块。对于TMVP,检查T,并且如果块T的MV可用,则将T用作CPMV4
在获得四个控制点的MV之后,基于该运动信息来构建仿射合并候选。使用控制点MV的以下组合来按顺序构建:{CPMV1,CPMV2,CPMV3},{CPMV1,CPMV2,CPMV4},{CPMV1,CPMV3,CPMV4},{CPMV2,CPMV3,CPMV4},{CPMV1,CPMV2},{CPMV1,CPMV3}。
3个CPMV的组合可以构建6参数仿射合并候选,而2个CPMV的组合可以构建4参数仿射合并候选。在示例中,为了避免运动缩放过程,当控制点的参考索引不同时,可以丢弃控制点MV的相关组合。
在示例中,在对继承仿射合并候选和构建仿射合并候选进行检查之后,如果候选列表仍未满,那么将零MV插入到列表的末尾。
对于仿射AMVP预测,可以将仿射AMVP模式应用于宽度及高度两者均大于或等于16的CU。在一些示例中,在比特流(例如,编码的视频比特流)中用信号发送CU层级的仿射标志以指示仿射AMVP模式是否用于CU中,并且然后用信号发送另一标志以指示使用4参数仿射还是6参数仿射。在仿射AMVP模式下,在比特流中用信号发送当前CU的CPMV与其预测器CPMVP的差异。仿射AMVP候选列表大小是2,并且仿射AMVP候选列表是通过按顺序使用以下四种类型的CPVM候选来生成的:(1)根据相邻CU的CPMV外推的继承仿射AMVP候选;(2)使用相邻CU的平移MV得出的构建仿射AMVP候选CPMVP;(3)来自相邻CU的平移MV;以及(4)零MV。
在一些示例中,继承仿射AMVP候选的检查顺序与继承仿射合并候选的检查顺序相同。在示例中,仿射合并预测与仿射AMVP预测之间的仅有差异在于,对于AVMP候选,仅考虑与当前块具有相同的参考图片的仿射CU。在示例中,当将继承仿射运动预测器插入到候选列表中时不应用修建过程。
在一些示例中,可以根据图15所示的指定空间相邻者得出构建AMVP候选。在示例中,使用与在仿射合并预测的候选构建中所进行的那样使用相同的检查顺序。此外,还检查相邻块的参考图片索引。使用检查顺序中的经帧间编码且具有与当前CU中相同的参考图片的第一块。当用4参数仿射模式对当前CU进行编码且两个控制点的运动矢量mv0和mv1均可用时,将两个控制点的运动矢量作为一个候选添加到仿射AMVP列表中。当用6参数仿射模式对当前CU进行编码并且控制点CPVM的所有三个运动矢量均可用时,将其作为一个候选添加到仿射AMVP列表中。否则,将构建AMVP候选设置为不可用。
当在对继承仿射AMVP候选和构建AMVP候选进行检查之后仿射AMVP列表候选的数量仍小于2时,在可用的情况下,将按顺序添加mv0、mv1和mv2作为平移MV,以预测当前CU的所有控制点MV。最后,如果仿射AMVP列表仍然未满,则使用零MV来填充仿射AMVP列表。
在一些示例中,基于子块的时间运动矢量预测(subblock-based temporalmotion vector prediction,SbTMVP)可用于VTM。类似于HEVC中的时间运动矢量预测(temporal motion vector prediction,TMVP),SbTMVP使用并置图片中的运动场来改进当前图片中的CU的合并模式和运动矢量预测。在一些示例中,TMVP使用的相同并置图片被用于SbTVMP。SbTMVP在两个方面不同于TMVP。在第一方面中,TMVP预测CU层级的运动,但SbTMVP预测子CU层级的运动。在第二方面中,TMVP从并置图片中的并置块(并置块是相对于当前CU的右下或中心块)取得时间运动矢量,SbTMVP在从并置图片取得时间运动信息之前应用运动移位。运动移位是从来自当前CU的空间相邻块中的一个的运动矢量获得的。
图16至图17示出了根据本公开内容的一些实施方式的SbTVMP过程的示例。SbTMVP分两步预测当前CU内的子CU的运动矢量。在第一步骤中,以A1、B1、B0和A0的顺序检查图16中所示的空间相邻者,以识别具有使用并置图片作为其参考图片的运动矢量的第一空间相邻块。然后,选择使用所收集的图片作为其参考图片的运动矢量作为要应用的运动移位。如果从A1、B1、B0和A0的空间相邻者中没有识别出这样的运动,则将运动位移设置成(0,0)。
在第二步骤,应用第一步骤中识别的运动位移(即,添加到当前块的坐标)以从如图17中所示的并置图片获得子CU层级运动信息(运动矢量和参考索引)。在图17示例中,将A1的运动矢量设置为运动位移(1710)。接着,对于每个子CU,使用并置图片中的对应块(覆盖中心样本的最小运动栅格)的运动信息来得出子CU的运动信息。在识别了并置子CU的运动信息之后,以与HEVC的TMVP过程类似的方式将其转换为当前子CU的运动矢量和参考索引。例如,应用时间运动缩放以将时间运动矢量的参考图片与当前CU的参考图片对准。
在一些示例中,例如在VTM3中,将包括SbTVMP候选和仿射合并候选的组合的基于子块的合并列表用于对基于子块的合并模式的信号发送。通过序列参数集(sequenceparameter set,SPS)标志启用/禁用SbTVMP模式。当启用SbTMVP模式时,添加SbTMVP预测器作为组合的基于子块的合并列表的第一条目,并且随后是仿射合并候选。在VTM3中,基于子块的合并列表的最大允许大小是5。
在示例中,将SbTMVP中所使用的子CU大小固定为8×8,且如针对仿射合并模式所进行的,SbTMVP模式仅适用于宽度及高度两者均大于或等于8的CU。
在一些实施方式中,附加SbTMVP合并候选的编码逻辑与其他合并候选的编码逻辑相同。在示例中,对于P或B切片中的每个CU,执行附加的率失真检查以决定是否使用SbTMVP候选。
在一些示例中,在VTM3中将三角预测用于帧间预测。使用三角预测的模式被称为三角分区模式。在一些示例中,仅将三角分区模式应用于满足某些条件(例如具有8x8或更大的大小,且在跳过或合并模式下被编码)的CU。对于满足这些条件的CU,用信号发送CU层级标志以指示是否应用三角分区模式。
当使用三角分区模式时,使用对角分割或反对角分割将CU均匀地分割成两个三角形分区。
图18示出了三角形分区的两个CU示例(1810)和(1820)。将CU(1810)从左上角到右下角(称为对角线方向)分割成两个三角形预测单元,并且将CU(1820)从右上角到左下角(称为逆对角线方向)分割成两个三角形预测单元PU1和PU2。CU中的每个三角形预测单元被使用从单预测候选列表得出的该三角形预测单元自身的参考帧索引和单预测运动矢量进行帧间预测。此外,在对三角形预测单元进行预测之后,对对角边执行自适应加权过程。然后,将变换和量化过程应用于整个CU。应注意,三角分区仅应用于跳过和合并模式。
在一些示例中,CU中的每个三角分区被使用其自身的运动矢量进行帧间预测;对于每个分区仅允许单预测,也就是说,每个分区具有一个运动矢量和一个参考索引。应用单预测运动约束以确保与常规的双预测相同,对于每个CU仅使用两个运动补偿预测。根据使用被称为单预测候选列表构建过程的过程构建的单预测候选列表得出用于每个分区的单预测运动信息。
在示例中,当CU层级标志指示当前CU是使用三角分区模式被编码时,另外用信号发送[0,39]的范围中的索引。使用此三角分区索引,可以通过查找表获得三角分区(对角或反对角)的方向以及分区中的每个分区的运动。在对三角分区中的每个分区进行预测之后,使用具有自适应权重的混合处理来调整沿着对角边或反对角边的样本值。混合处理的结果是用于整个CU的预测信号,并且变换和量化过程可以如在其他预测模式中那样被应用于整个CU。最后,使用三角分区模式预测的CU的运动场以4×4单元被存储。
根据本公开内容的方面,单预测候选列表构建过程构建包括五个单预测运动矢量候选的单预测候选列表。
图19示出了用于形成当前块(1910)的单预测候选列表的示例。在示例中,单预测候选列表包括五个单预测运动矢量候选。单预测候选列表是由七个相邻块得出的,七个相邻块包括五个空间相邻块(如图19所示的1至5)和两个时间同位块(如图19所示的6至7)。例如,收集七个相邻块的运动矢量,并且以特定顺序将其放入单预测候选列表中,例如首先是单预测运动矢量。然后,对于双预测的相邻块,将L0个运动矢量(即,双预测MV的L0运动矢量部分)、L1运动矢量(即,双预测MV的L1运动矢量部分)、以及双预测MV的L0和L1运动矢量的平均运动矢量放入单预测候选列表中。当候选的数量小于五时,将零运动矢量添加到列表的末尾。
在一些示例中,可以使用40种可能方式来预测以三角分区模式编码的CU。这40种可能的方式被确定为5(对于分区1运动)x4(对于分区2运动)x2(对角或反对角分区模式)。范围[0,39]中的三角分区索引用于识别使用查找表(例如表3)时使用这些可能性中的哪一个。在表3中,triangle_idx表示范围[0,39]中的三角分区索引;triangle_dir表示分区的方向(例如,对角或反对角分区模式);part_1_cand表示针对分区1的所选候选的索引,part_2_cand表示针对分区2的所选候选的索引。
表3-基于三角索引得出三角方向和分区运动的查找表
Figure BDA0003115821940000251
Figure BDA0003115821940000261
在使用相应运动信息对三角分区进行预测之后,将混合应用于两个预测信号以得出对角边或反对角边周围的样本,如图22中通过块(2210)的加权区域和块(2220)的加权区域说明。混合过程根据两个分区之间的运动矢量差分自适应地选择权重。
在示例中,使用两个加权因数组。第一加权因数组分别包括用于亮度样本的{7/8,6/8,4/8,2/8,1/8}和用于色度样本的{7/8,4/8,1/8}。第二加权因数组分别包括用于亮度样本的{7/8,6/8,5/8,4/8,3/8,2/8,1/8}和用于色度样本的{6/8,4/8,2/8}。
图20示出了根据本公开内容的一些实施方式使用第一加权因数组来得出针对CU的最终预测的示例。图20示出了用于亮度样本的加权因数(2010)和用于色度样本的加权因数(2020)。
图21示出了根据本公开内容的一些实施方式使用第二加权因数组来得出针对CU的最终预测的示例。图21示出了用于亮度样本的加权因数(2110)和用于色度样本的权重因数(2120)。
第二加权因数组具有更多的亮度权重,并且沿着分区边混合更多的亮度样本。在一些示例中,当两个三角分区的参考图片彼此不同时,或当其运动矢量差分大于16个亮度样本时,选择第二加权因数组;否则,选择第一加权因数组。
例如,对于亮度样本,P1是PU1的单预测,P2是PU2的单预测。使用图20作为示例,当加权因数被示为P1时,最终预测仅由PU1的单预测确定;当加权因数被示为P2时,最终预测仅由PU2的单预测确定。当加权因数被示为数字时,该数字指示用于PU1的单预测的权重。例如,当加权因数是2时,根据式3计算最终预测;当加权因数为4时,根据式3计算最终预测;并且当加权因数为7时,根据式5计算最终预测:
Figure BDA0003115821940000271
Figure BDA0003115821940000272
Figure BDA0003115821940000273
在一些示例中,组合帧间和帧内预测(combined inter and intra prediction,CIIP)是在VTM3中使用的另一工具。在VTM3中,当CU在合并模式下被编码时,且如果CU包括至少64个亮度样本(即,CU宽度乘以CU高度等于或大于64),那么用信号发送附加标志以指示是否将组合帧间/帧内预测(CIIP)模式应用于当前CU。
在一些实施方式中,为了形成CIIP预测,首先根据两个附加语法元素得出帧内预测模式。可以使用最多达四种可能的帧内预测模式,例如DC、平面的、水平的或垂直的。然后,使用规则的帧内和帧间解码过程来得出帧间预测和帧内预测信号。最后,执行帧间和帧内预测信号的加权平均以获得CIIP预测。
在一个实施方式中,可以使用包括DC、平面的、水平的和垂直的最多达4个帧内预测模式来预测CIIP模式下的亮度分量。当CU形状非常宽(即,宽度大于高度的两倍)时,则不允许水平模式。当CU形状非常窄(即,高度大于宽度的两倍)时,则不允许垂直模式。在这样的情况下,允许3个帧内预测模式。
在一些实施方式中,CIIP模式使用3种最可能模式(most probable mode,MPM)进行帧内预测。可以如下形成CIIP MPM候选列表。
在形成CIIP MPM候选列表的第一步骤中,在示例中,将左边和顶部的相邻块分别设置为A和B。
在形成CIIP MPM候选列表的第二步骤中,得出块A和块B的帧内预测模式,其分别被表示为IntraModeA和IntraModeB。例如,使X为A或B。当1)块X不可用;或者2)块X不是使用CIIP模式或帧内模式预测的;3)块B在当前CTU的外部时,将intraModeX设置为DC。否则,1)如果块X的帧内预测模式是DC或平面的,则将intraModeX设置为DC或平面的;或者2)如果块X的帧内预测模式是“类垂直的”角模式(大于34),则将intraModeX设置为垂直的,或者3)如果块X的帧内预测模式是“类水平的”角模式(小于或等于34),则将intraModeX设置为水平的。
在第三步骤中,当intraModeA和intraModeB相同时,如果intraModeA是平面的或DC,则将三个MPM按顺序设置成{平面的,DC,垂直的};否则,将三个MPM按顺序设置成{intraModeA,平面的,DC}。
在第三步骤中,当intraModeA和intraModeB不同时,将前两个MPM按顺序设置成{intraModeA,intraModeB}。对于第三MPM,对照前两个MPM候选模式(例如,intraModeA和intraModeB)按顺序检查平面的、DC和垂直的唯一性;并且一旦找到唯一模式,就将该唯一模式添加到作为第三MPM。
在一些示例中,CU形状如上所定义的非常宽或非常窄(一边是另一边的两倍以上),MPM标志被推断为1而不发送信号。否则,用信号发送MPM标志以指示CIIP帧内预测模式是否为CIIP MPM候选模式之一。
当MPM标志为1时,另外用信号发送MPM索引以指示在CIIP帧内预测中使用MPM候选模式中的哪一个。否则,如果MPM标志为0,那么将帧内预测模式设置为MPM候选列表中的“丢失”模式。例如,如果平面模式不在MPM候选列表中,那么平面的为丢失模式,并且将帧内预测模式设置为平面的。由于在CIIP中允许4种可能的帧内预测模式,并且MPM候选列表仅包含3种帧内预测模式,因此4种可能的模式中的一种模式可以被确定为丢失模式。
在示例中,对于色度分量,总是应用得出模式(derived mode,DM)模式,而无需额外发送信号;也就是说,色度使用与亮度相同的预测模式。
在一些示例中,CIIP编码的CU的帧内预测模式将被保存且用于将来的相邻CU的帧内模式编码中。
在得出帧间预测信号和帧内预测信号之后,将帧间预测信号和帧内预测信号组合。例如,使用应用于规则合并模式的相同帧间预测过程来得出CIIP模式中的帧间预测信号Pinter;并且在规则帧内预测过程之后使用CIIP帧内预测模式来得出帧内预测信号Pintra。然后,使用加权平均对帧内和帧间预测信号进行组合。在一些示例中,权重值取决于帧内预测模式和样本在编码块中的位置。在示例中,当帧内预测模式为DC或平面模式时,或当块宽度或高度小于4时,那么将相等权重应用于帧内预测信号和帧间预测信号。
在另一示例中,当帧内预测模式为水平模式或垂直模式时,基于帧内预测模式和块中的样本位置确定权重。以水平预测模式作为示例(用于垂直模式的权重可以类似地得出,但是在正交方向上),W表示块的宽度,并且H表示块的高度。首先,将编码块分割成四个等面积部分,每个等面积部分的尺寸为(W/4)×H。从最接近帧内预测参考样本的部分开始并且在最远离帧内预测参考样本的部分结束,将用于4个区域中的每个区域的权重wt分别设置为6、5、3和2。使用式6得出最终CIIP预测信号:
PCIIP=((8-wt)×Pinter+wt×Pintra+4)>>3 (等式6)
在用信号发送三角预测的另一示例中,当将三角预测应用于块时,对于位于(xCb,yCb)处的块,不用信号发送范围从0到39的merge_triangle_idx[xCb][yCb],那么表3的查找表不再是必要的。相反,用信号发送三个语法元素,即split_dir[xCb][yCb]、merge_triangle_idx0[xCb][yCb]和merge_triangle_idx1[xCb][yCb]。语法元素split_dir[xCb][yCb]为0或1,语法元素merge_triangle_idx0[xCb][yCb]为0、1、2、3或4,并且语法元素merge_triangle_idx1[xCb][yCb]为0、1、2或3。可以使用不同的方法将语法元素merge_triangle_idx0[xCb][yCb]和merge_triangle_idx1[xCb][yCb]二进制化,例如截断一元编码或截断二元编码。表4和表5示出了截断一元编码和二元编码的示例。另外,可以将不同的上下文模型应用于二值化的值中的每个统计堆栈(bin)。
表4:最大有效值等于4(包括)的截断一元编码和截断二元编码
符号 截断一元编码 截断二元编码
0 0 00
1 10 01
2 110 10
3 1110 110
4 1111 111
表5:最大有效值等于3(包括)的截断一元编码和截断二元编码
符号 截断一元编码 二元编码
0 0 00
1 10 01
2 110 10
3 111 11
在一些示例中,定义两个变量m和n以指示三角预测中的两个预测单元的合并候选索引,其中,除了m和n不应相等之外,m和n可以为0、1、2、3或4的任何组合。merge_triangle_idx[xCb][yCb]可以由m,n和split_dir[xCb][yCb]得出。此外,不同的映射可以用于从merge_triangle_idx0[xCb][yCb]以及merge_triangle_idx1[xCb][yCb]映射到由两个三角分区使用的实际合并候选。
根据本公开内容的一些方面,可以使用许多新的帧间预测模式(例如,MMVD、SbTMVP、CIIP、三角、仿射合并、仿射AMVP等)来从各个方面改进视频编码。用于帧间预测模式的语法元素在固定或不同编码参数设置下可以具有不同统计分布。可以修改用于帧间预测模式的信号发送技术以实现较好的编码效率。
本公开内容的各方面提供用于某些帧间预测模式的修改的信号发送技术以实现更好的编码效率。所提出的方法可以单独使用或以任何顺序组合使用。此外,方法(或实施方式)、编码器和解码器中的每一个可以由处理电路(例如,一个或更多个处理器或一个或更多个集成电路)实现。在一个示例中,一个或更多个处理器执行被存储在非暂态计算机可读介质中的程序。在下文中,术语块可被解释为预测块、编码块或编码单元,即CU。所公开的方法修改视频编解码器的解码过程,使得修改对帧间预测相关语法元素的解析和解释。
根据本公开内容的一些方面,可以添加修改以使帧间预测模式中的一些与merge_flag为假(例如,0)而非与merge_flag为真(例如,1)相关联。在一些示例中,当太多帧间预测模式与merge_flag为真相关联时,帧间预测模式的语法元素的解码可能花费较长时间(例如,太多“if”语句)。因此,当帧间预测模式中的一些被修改成与merge_flag为假相关联时,可以减少解码时间,该解码时间在一些示例中与“if”语句的数量有关。
在一些实施方式中,当(用信号发送或暗示的)merge_flag为假(例如,0)时,用信号发送某些帧间预测工具(用于对应的帧间预测模式)的语法元素。在一些示例中,某些帧间预测工具被称为pseudo_non_merge_modes,并且可以虚拟地构建pseudo_non_merge_modes的列表。在一些示例中,pseudo_non_merge_modes的列表包括MMVD、SbTMVP、CIIP、三角、仿射合并、高级MVP(advanced MVP,AMVP)、仿射AMVP等中的帧间预测工具中的至少一个。应注意,AMVP是指具有对规则帧间预测参数的信号发送的模式,规则帧间预测参数包括参考索引、MVD等。在一个示例中,pseudo_non_merge_modes可以包括MMVD和AMVP。在另一示例中,pseudo_non_merge_modes可以包括MMVD、CIIP和仿射合并。
pseudo_non_merge_modes的列表可以以各种方式来构建(例如,使用如下所述的多个方法中的一个或组合)。在一些实施方式中,构建方法是固定的,并且由编码器和解码器两者使用。
在一个实施方式中,pseudo_non_merge_modes包括在预测中使用MVD的帧间预测模式。在示例中,当MVD不与帧间预测工具(例如,三角)相关联时,在pseudo_non_merge_modes中不包括帧间预测工具。否则,在pseudo_non_merge_modes中包括帧间预测工具。
在另一实施方式中,在pseudo_non_merge_modes中不包括AMVP。
在另一实施方式中,在pseudo_non_merge_modes中总是包括AMVP。
在另一实施方式中,当AMVP被包括在pseudo_non_merge_modes中时,AMVP总是pseudo_non_merge_modes列表中的按顺序的最后一个。
在另一实施方式中,pseudo_non_merge_modes中的工具可以按照任何顺序。
在另一实施方式中,当在pseudo_non_merge_modes中包括仿射合并和仿射AMVP两者时,将这两个模式的信令发送进行统一。在示例中,两个语法元素(例如,两个标志)一起用于指示是否将仿射合并和仿射AMVP中的一个用于当前块的帧间预测。例如,用信号发送第一语法元素以指示是否应用仿射预测(包括仿射合并和仿射AMVP)。当第一语法元素为真时(意味着仿射预测),用信号发送第二语法元素以指示帧间预测模式是仿射合并还是仿射AMVP。当帧间预测模式是仿射合并时,可以用信号发送针对仿射合并的附加语法元素(例如,仿射合并索引)。当帧间预测模式为仿射AMVP时,可以用信号发送针对仿射AMVP的附加语法元素(例如,指示4参数或6参数仿射的标志,以及块的仿射MVP索引或对应仿射参数及每个控制点的MVD)。
在一些实施方式中,pseudo_non_merge_modes列表中的所有工具通过单独的标志顺序地用信号发送。在一个实施方式中,当pseudo_non_merge_modes中的其他工具没有被激活(使用标志被用信号指示或被推断为假)时,应用pseudo_non_merge_modes列表中的最后的工具,而没有附加的信号发送。在示例中,pseudo_non_merge_modes包括MMVD、CIIP和AMVP,并且然后可以使用对应于MMVD的第一标志和对应于CIIP的第二标志。用信号发送第一标志以指示MMVD是否被用在编码块中。当第一标志为真时,可以用信号发送附加的MMVD语法元素。当第一标志为假时,用信号发送第二标志以指示CIIP是否被用在编码块中。当第二标志为真时,用信号发送附加的CIIP语法元素。当第一标志和第二标志两者均为假时,在没有附加的信号发送的情况下使用AMVP。
在一些实施方式中,可以用信号发送索引来指示使用哪个工具,而不是针对每个工具用信号发送单独标志。当使用工具时,可以在索引之后用信号发送与该工具有关的附加语法元素。
在示例中,当pseudo_non_merge_modes列表仅包括一个工具时,不用信号发送索引而是该索引被推断为0。
在另一示例中,当pseudo_non_merge_modes的列表包括两个工具时,用信号发送在[0,1]中的索引。在示例中,0指示使用pseudo_non_merge_modes列表中的第一工具,并且1指示使用pseudo_non_merge_modes列表中的第二工具。例如,当pseudo_non_merge_modes列表包括MMVD和仿射合并时,则可以用信号发送在[0,1]中的索引。当索引为0时,使用MMVD,而当索引为1时,使用仿射合并。
在另一示例中,pseudo_non_merge_modes列表包括N个工具,可以用信号发送在[0,1,…,N-1]中的索引。例如,当索引为0时,使用第一工具;当索引为1时,使用第二工具;以及当索引为N-1时,使用最后的工具。可以使用任何合适的编码技术来编码索引,例如截断一元编码、截断二元编码、Golomb-Rice编码等。
图23示出了概述根据本公开内容的实施方式的过程(2300)的流程图。该过程(2300)可以用于在帧内模式下被编码的块的重建,以便为重建中的块生成预测块。在各种实施方式中,过程(2300)由处理电路执行,例如终端装置(210)、(220)、(230)和(240)中的处理电路、执行视频编码器(303)的功能的处理电路、执行视频解码器(310)的功能的处理电路、执行视频解码器(410)的功能的处理电路、执行视频编码器(503)的功能的处理电路等。在一些实施方式中,过程(2300)以软件指令实现,因此当处理电路执行软件指令时,处理电路执行过程(2300)。该过程开始于(S2301)并且进行到(S2310)。
在(S2310)处,解码当前块的预测信息。预测信息指示与为假的合并标志相关联的帧间预测模式子集。在一些相关示例中,将帧间预测模式的子集用于与为真的合并标志相关联。在本公开内容中,子集中的帧间预测模式被称为pseudo_non_merge_modes,且与为假的合并标志相关联,以便提高编码效率。
在(S2320)处,解码一个或更多个附加标志。附加标志用于从帧间预测模式的子集中选择特定帧间预测模式。当特定帧间预测模式使用附加信息进行预测时,解码附加语法元素。
在(S2330)处,根据特定帧间预测模式来重建当前块的样本。然后,过程进行至(S2399)并结束。
可以将上述技术实现为计算机软件,该计算机软件使用计算机可读指令,并且物理地存储在一个或更多个计算机可读介质中。例如,图24示出了适合于实现所公开的主题的某些实施方式的计算机系统(2400)。
计算机软件可以使用任何合适的机器代码或计算机语言来编码,该机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码,该指令可以由一个或更多个计算机中央处理单元(central processing unit,CPU)、图形处理单元(GraphicsProcessing Unit,GPU)等直接执行或者通过解释、微代码执行等来执行。
指令可以在各种类型的计算机或其部件上执行,各种类型的计算机或其部件包括例如个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等。
图24中示出的用于计算机系统(1500)的部件本质上是示例性的,并且不旨在暗示对实现本公开内容的实施方式的计算机软件的使用范围或功能的任何限制。部件的配置也不应当被解释为具有与计算机系统(2400)的示例性实施方式中示出的部件中的任何一个部件或部件的组合有关的任何依赖性或要求。
计算机系统(2400)可以包括某些人机接口输入装置。这样的人机接口输入装置可以响应于由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、掌声)、视觉输入(例如:姿势)、嗅觉输入(未示出)实现的输入。人机接口装置还可以用于捕获不一定与人的有意识的输入直接有关的某些媒体,例如,音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静态图像摄像机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
输入人机接口装置可以包括以下中的一个或更多个(每者仅绘出一个):键盘(2401)、鼠标(2402)、触控板(2403)、触摸屏(2410)、数据手套(未示出)、操纵杆(2405)、麦克风(2406)、扫描仪(2407)、摄像机(2408)。
计算机系统(1500)还可以包括某些人机接口输出装置。这样的人机接口输出装置可以通过例如触觉输出、声音、光和气味/味道来刺激一个或更多个人类用户的感觉。这样的人机接口输出装置可以包括触觉输出装置(例如,通过触摸屏(2410)、数据手套(未示出)或操纵杆(2405)实现的触觉反馈,但是也可以存在不充当输入装置的触觉反馈装置)、音频输出装置(例如:扬声器(2409)、头戴式耳机(未描绘))、视觉输出装置(例如:屏幕(2410),包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每一个具有或不具有触摸屏输入能力,每一个具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体输出的手段输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘)、全息显示器和烟罐(未描绘))和打印机(未描绘)。
计算机系统(2400)还可以包括人类可访问存储装置及其相关联的介质,例如包括具有CD/DVD等介质(2421)的CD/DVD ROM/RW(2420)的光学介质、拇指驱动器(2422)、可移除硬盘驱动器或固态驱动器(2423)、遗留磁介质(例如磁带和软盘(未描绘))、基于专用ROM/ASIC/PLD的装置(例如安全加密狗(未描绘))等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬时信号。
计算机系统(1500)还可以包括到一个或更多个通信网络的接口。网络可以是例如无线的、有线的、光学的。网络还可以是本地的、广域的、城市的、车载的和工业的、实时的、延迟容忍的等等。网络的示例包括局域网,例如以太网、无线LAN、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车载的和工业的(包括CANBus)等。某些网络通常需要外部网络接口适配器,该外部网络接口适配器附接至某些通用数据端口或外围总线(2449)(例如,计算机系统(2400)的USB端口);其他网络通常通过附接至如下所述的系统总线(例如,到PC计算机系统的以太网接口或到智能电话计算机系统的蜂窝网络接口)而集成到计算机系统(2400)的核中。使用这些网络中的任何网络,计算机系统(2400)可以与其他实体进行通信。这样的通信可以是单向的、仅接收的(例如,广播电视)、单向仅发送的(例如,到某些CANbus装置的CANbus)、或双向的(例如,使用局域数字网络或广域数字网络到其他计算机系统)。可以在如上所述的这些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口装置、人类可访问存储装置和网络接口可以附接至计算机系统(2400)的核(2440)。
核(2440)可以包括一个或更多个中央处理单元(Central Processing Unit,CPU)(2441)、图形处理单元(Graphics Processing Unit,GPU)(2442)、现场可编程门区(FieldProgrammable Gate Area,FPGA)(2443)形式的专用可编程处理单元、用于某些任务的硬件加速器(2444)等。这些装置,连同只读存储器(Read-only memory,ROM)(2445)、随机存取存储器(Random-access memory,2446)、内部大容量存储装置(例如内部非用户可访问硬盘驱动器、SSD等)(2447)可以通过系统总线(2448)连接。在一些计算机系统中,系统总线(2448)可以是以一个或更多个物理插头的形式可访问的,以使得能够由附加的CPU、GPU等进行扩展。外围装置可以直接地或通过外围总线(2449)附接至核的系统总线(2448)。外围总线的架构包括PCI、USB等。
CPU(2441)、GPU(2442)、FPGA(2443)和加速器(2444)可以执行某些指令,这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM(2445)或RAM(2446)中。过渡数据也可以存储在RAM(2446)中,而永久数据可以存储在例如内部大容量存储装置(2447)中。可以通过使用缓存存储器来实现对存储装置中的任何存储装置的快速存储和检索,该缓存存储器可以与一个或更多个CPU(2441)、GPU(2442)、大容量存储装置(2447)、ROM(2445)、RAM(2446)等紧密相关联。
计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开内容的目的而专门设计和构造的介质和计算机代码,或者它们可以是计算机软件领域的技术人员公知和可用的类型的介质和计算机代码。
作为示例而非限制,具有架构(2400)的计算机系统——特别是核(2440)——可以提供由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而实现的功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问大容量存储装置相关联的介质,以及具有非暂态性的核(2440)的某些存储装置,例如核内部大容量存储装置(2447)或ROM(2445)。可以将实现本公开内容的各种实施方式的软件存储在这样的装置中并且由核(2440)执行。根据特定需要,计算机可读介质可以包括一个或更多个存储装置或芯片。软件可以使核(2440)——特别是其中的处理器(包括CPU、GPU、FPGA等)——执行本文中描述的特定过程或特定过程的特定部分,包括限定存储在RAM(2446)中的数据结构以及根据由软件限定的过程修改这样的数据结构。另外地或作为替选,计算机系统可以提供由于逻辑硬连线或以其他方式实施在电路(例如:加速器(2444))中而实现的功能,该电路可以代替软件或与软件一起操作以执行本文中描述的特定过程或特定过程的特定部分。在适当的情况下,对软件的提及可以包含逻辑,反之对逻辑的提及也可以包含软件。在适当的情况下,对计算机可读介质的提及可以包含存储用于执行的软件的电路(例如,集成电路(integrated circuit,IC))、实施用于执行的逻辑的电路或上述两者。本公开内容包含硬件和软件的任何合适的组合。
附录A:首字母缩略词
JEM(joint exploration model):联合探索模型
VVC(versatile video coding):通用视频编码
BMS(benchmark set):基准集
MV(Motion Vector):运动矢量
HEVC(High Efficiency Video Coding):高效视频编码
SEI(Supplementary Enhancement Information):补充增强信息
VUI(Video Usability Information):视频可用性信息
GOP(Group of Picture):图片组
TU(Transform Unit):变换单元
PU(Prediction Unit):预测单元
CTU(Coding Tree Unit):编码树单元
CTB(Coding Tree Block):编码树块
PB(Prediction Block):预测块
HRD(Hypothetical Reference Decoder):假想参考解码器
SNR(Signal Noise Ratio):信噪比
CPU(Central Processing Unit):中央处理单元
GPU(Graphics Processing Unit):图形处理单元
CRT(Cathode Ray Tube):阴极射线管
LCD(Liquid-Crystal Display):液晶显示器
OLED(Organic Light-Emitting Diode):有机发光二极管
CD(Compact Disc):光盘
DVD(Digital Video Disc):数字视频光盘
ROM(Read-Only Memory):只读存储器
RAM(Random Access Memory):随机存取存储器
ASIC(Application-Specific Integrated Circuit):专用集成电路
PLD(Programmable Logic Device):可编程逻辑装置
LAN(Local Area Network):局域网
GSM(Global System for Mobile communication):全球移动通信系统
LTE(Long-Term Evolution):长期演进
CANBus(Controller Area Network Bus):控制器局域网总线
USB(Universal Serial Bus):通用串行总线
PCI(Peripheral Component Interconnect):外围部件互连
FPGA(Field Programmable Gate Area):现场可编程门区
SSD(solid-state drive):固态驱动器
IC(Integrated Circuit):集成电路
CU(Coding Unit):编码单元
尽管本公开内容已经描述了若干示例性实施方式,但是存在落入本公开内容的范围内的改变、置换和各种替换等效物。因此将认识到,本领域技术人员能够设想虽然本文中没有明确示出或描述但是体现了本公开内容的原理并且因此在其精神和范围内的许多系统和方法。

Claims (20)

1.一种用于解码器中的视频解码的方法,包括:
从编码的视频比特流解码当前块的预测信息,所述预测信息指示与合并标志为假相关联的帧间预测模式的子集;
解码至少附加标志,所述附加标志用于从所述帧间预测模式的子集中选择特定帧间预测模式;以及
根据所述特定帧间预测模式重建所述当前块的样本。
2.根据权利要求1所述的方法,其中,所述帧间预测模式的子集包括以下中的至少一个:运动矢量差分合并(MMVD)帧间预测模式、基于子块的时间运动矢量预测器(SbTMVP)预测模式、组合帧间和帧内预测(CIIP)帧间预测模式、三角帧间预测模式、仿射合并帧间预测模式、高级运动矢量预测器(AMVP)帧间预测模式和仿射AMVP帧间预测模式。
3.根据权利要求1所述的方法,其中,所述子集中的帧间预测模式中的每一个在预测中使用运动矢量差分。
4.根据权利要求1所述的方法,其中,高级运动矢量预测器(AMVP)帧间预测模式不在所述子集中。
5.根据权利要求1所述的方法,其中,高级运动矢量预测器(AMVP)帧间预测模式在所述子集中。
6.根据权利要求1所述的方法,还包括:
当第一标志指示仿射模式时,解码第二标志,所述第二标志用于从仿射合并帧间预测模式和仿射高级运动矢量预测器(AMVP)帧间预测模式中选择一个。
7.根据权利要求1所述的方法,还包括:
解码与所述子集中的帧间预测模式分别对应的标志,以选择所述特定帧间预测模式。
8.根据权利要求1所述的方法,还包括:
解码与所述子集中的排在所述子集中的最后的帧间预测模式之前的帧间预测模式分别对应的标志;以及
当所述标志为假时,选择所述最后的帧间预测模式。
9.根据权利要求1所述的方法,还包括:
解码索引,所述索引指示来自所述子集中的帧间预测模式的所述特定帧间预测模式。
10.一种用于视频解码装置,包括:
处理电路,所述处理电路被配置成:
从编码的视频比特流解码当前块的预测信息,所述预测信息指示与合并标志为假相关联的帧间预测模式的子集;
解码至少附加标志,所述附加标志用于从所述帧间预测模式的子集中选择特定帧间预测模式;以及
根据所述特定帧间预测模式重建所述当前块的样本。
11.根据权利要求10所述的装置,其中,所述帧间预测模式的子集包括以下中的至少一个:运动矢量差分合并(MMVD)帧间预测模式、基于子块的时间运动矢量预测器(SbTMVP)预测模式、组合帧间和帧内预测(CIIP)帧间预测模式、三角帧间预测模式、仿射合并帧间预测模式、高级运动矢量预测器(AMVP)帧间预测模式和仿射AMVP帧间预测模式。
12.根据权利要求10所述的装置,其中,所述子集中的帧间预测模式中的每一个在预测中使用运动矢量差分。
13.根据权利要求10所述的装置,其中,高级运动矢量预测器(AMVP)帧间预测模式不在所述子集中。
14.根据权利要求10所述的装置,其中,高级运动矢量预测器(AMVP)帧间预测模式在所述子集中。
15.根据权利要求10所述的装置,其中,所述处理电路被配置成:
当第一标志指示仿射模式时,解码第二标志,所述第二标志用于从仿射合并帧间预测模式和仿射高级运动矢量预测器(AMVP)帧间预测模式中选择一个。
16.根据权利要求10所述的装置,其中,所述处理电路被配置成:
解码与所述子集中的帧间预测模式分别对应的标志,以选择所述特定帧间预测模式。
17.根据权利要求10所述的装置,其中,所述处理电路被配置成:
解码与所述子集中的排在所述子集中的最后的帧间预测模式之前的帧间预测模式分别对应的标志;以及
当所述标志为假时,选择所述最后的帧间预测模式。
18.根据权利要求10所述的装置,其中,所述处理电路被配置成:
解码索引,所述索引指示来自所述子集中的帧间预测模式的所述特定帧间预测模式。
19.一种存储指令的非暂态计算机可读介质,所述指令在由计算机执行时使所述计算机执行以下操作:
从编码的视频比特流解码当前块的预测信息,所述预测信息指示与合并标志为假相关联的帧间预测模式的子集;
解码至少附加标志,所述附加标志用于从所述帧间预测模式的子集中选择特定帧间预测模式;以及
根据所述特定帧间预测模式重建所述当前块的样本。
20.根据权利要求19所述的非暂态计算机可读介质,其中,所述帧间预测模式的子集包括以下中的至少一个:运动矢量差分合并(MMVD)帧间预测模式、基于子块的时间运动矢量预测器(SbTMVP)预测模式、组合帧间和帧内预测(CIIP)帧间预测模式、三角帧间预测模式、仿射合并帧间预测模式、高级运动矢量预测器(AMVP)帧间预测模式和仿射AMVP帧间预测模式。
CN202080007021.XA 2019-01-05 2020-01-03 视频编解码的方法和装置 Active CN113261298B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962788835P 2019-01-05 2019-01-05
US62/788,835 2019-01-05
US16/733,038 US11234007B2 (en) 2019-01-05 2020-01-02 Method and apparatus for video coding
US16/733,038 2020-01-02
PCT/US2020/012176 WO2020142682A1 (en) 2019-01-05 2020-01-03 Method and apparatus for video coding

Publications (2)

Publication Number Publication Date
CN113261298A true CN113261298A (zh) 2021-08-13
CN113261298B CN113261298B (zh) 2023-09-22

Family

ID=71404551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080007021.XA Active CN113261298B (zh) 2019-01-05 2020-01-03 视频编解码的方法和装置

Country Status (4)

Country Link
US (2) US11234007B2 (zh)
EP (1) EP3906688A4 (zh)
CN (1) CN113261298B (zh)
WO (1) WO2020142682A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3744094A4 (en) * 2018-01-26 2021-11-03 MediaTek Inc. METHOD AND DEVICE FOR AFFINE INTER-PREDICTION FOR A VIDEO ENCODING SYSTEM
JP7460617B2 (ja) 2018-06-29 2024-04-02 北京字節跳動網絡技術有限公司 Lut更新条件
KR20240005239A (ko) 2018-06-29 2024-01-11 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Lut와 amvp 사이의 상호작용
JP7137008B2 (ja) 2018-06-29 2022-09-13 北京字節跳動網絡技術有限公司 1つまたは複数のルックアップテーブルを使用して、以前コーディングされた動き情報を順に記憶させてそれらを後続のブロックのコーディングに使用する概念
CN110662057B (zh) 2018-06-29 2022-06-21 北京字节跳动网络技术有限公司 视频处理方法、装置、设备以及存储比特流的方法
KR102611261B1 (ko) 2018-06-29 2023-12-08 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 업데이트 대상 lut 또는 비업데이트 lut의 구별
KR20240007299A (ko) 2018-06-29 2024-01-16 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 룩업 테이블의 업데이트: fifo, 제약된 fifo
BR112020024142A2 (pt) 2018-06-29 2021-03-02 Beijing Bytedance Network Technology Co., Ltd. método para processamento de vídeo, aparelho para codificação de dados de vídeo, meio de armazenamento e meio de gravação legíveis por computador não transitório
TW202025760A (zh) 2018-09-12 2020-07-01 大陸商北京字節跳動網絡技術有限公司 要檢查多少個hmvp候選
WO2020143741A1 (en) * 2019-01-10 2020-07-16 Beijing Bytedance Network Technology Co., Ltd. Invoke of lut updating
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
CN113330739A (zh) 2019-01-16 2021-08-31 北京字节跳动网络技术有限公司 Lut中的运动候选的插入顺序
CN113615193A (zh) 2019-03-22 2021-11-05 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
US11109041B2 (en) * 2019-05-16 2021-08-31 Tencent America LLC Method and apparatus for video coding
US11134275B2 (en) * 2019-06-04 2021-09-28 Tencent America LLC Method and apparatus for performing primary transform based on filtering of blocks
US11336900B2 (en) * 2019-06-26 2022-05-17 Qualcomm Incorporated Combined inter and intra prediction mode for video coding
CN115176463A (zh) * 2019-12-30 2022-10-11 抖音视界有限公司 具有几何分割的块的运动矢量差
WO2023200715A1 (en) * 2022-04-12 2023-10-19 Qualcomm Incorporated Flexible activation of multiple transform selection for inter-coding in video coding
WO2024027784A1 (en) * 2022-08-05 2024-02-08 Mediatek Inc. Method and apparatus of subblock-based temporal motion vector prediction with reordering and refinement in video coding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017118409A1 (en) * 2016-01-07 2017-07-13 Mediatek Inc. Method and apparatus for affine merge mode prediction for video coding system
WO2018128222A1 (ko) * 2017-01-03 2018-07-12 엘지전자 주식회사 영상 코딩 시스템에서 영상 디코딩 방법 및 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812817B (zh) 2010-11-23 2019-07-12 Lg电子株式会社 由编码装置和解码装置执行的间预测方法
EP2685718B1 (en) * 2011-03-10 2018-08-29 Sharp Kabushiki Kaisha Image decoding apparatus
WO2012140821A1 (ja) * 2011-04-12 2012-10-18 パナソニック株式会社 動画像符号化方法、動画像符号化装置、動画像復号化方法、動画像復号化装置、および動画像符号化復号化装置
US9294779B2 (en) 2012-06-15 2016-03-22 Blackberry Limited Multi-bit information hiding using overlapping subsets
US9554150B2 (en) 2013-09-20 2017-01-24 Qualcomm Incorporated Combined bi-predictive merging candidates for 3D video coding
US10999595B2 (en) 2015-11-20 2021-05-04 Mediatek Inc. Method and apparatus of motion vector prediction or merge candidate derivation for video coding
CN110169072A (zh) * 2017-01-13 2019-08-23 索尼公司 图像处理装置和图像处理方法
WO2019039283A1 (ja) * 2017-08-22 2019-02-28 ソニー株式会社 画像処理装置及び画像処理方法
CN111294601A (zh) * 2018-12-07 2020-06-16 华为技术有限公司 视频图像解码、编码方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017118409A1 (en) * 2016-01-07 2017-07-13 Mediatek Inc. Method and apparatus for affine merge mode prediction for video coding system
WO2018128222A1 (ko) * 2017-01-03 2018-07-12 엘지전자 주식회사 영상 코딩 시스템에서 영상 디코딩 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BRIAN HENG: "Non-CE8: Proposed Cleanup for Current Picture Referencing", 《JVET OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》 *
BRIAN HENG等: ""Non-CE8: Proposed Cleanup for Current Picture Referencing", 《JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》 *
XIAOZHONG XU: "Description of Core Experiment 8: Current Picture Referencing", 《JVET OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》 *

Also Published As

Publication number Publication date
US11234007B2 (en) 2022-01-25
CN113261298B (zh) 2023-09-22
EP3906688A1 (en) 2021-11-10
US20220030263A1 (en) 2022-01-27
US11632561B2 (en) 2023-04-18
US20200221108A1 (en) 2020-07-09
EP3906688A4 (en) 2022-11-16
WO2020142682A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
CN112789850B (zh) 一种视频编解码方法、装置、设备和介质
CN113261298B (zh) 视频编解码的方法和装置
CN113287307B (zh) 视频解码的方法和装置、计算机设备及介质
CN113302932B (zh) 视频编解码的方法、装置及存储介质
CN113287308B (zh) 视频编解码方法及装置
CN113678434A (zh) 视频编解码的方法和装置
CN113545042A (zh) 三角预测中的合并列表构建
CN113545083A (zh) 视频编解码的方法和装置
CN112313952A (zh) 用于视频编码的方法和设备
CN110944185B (zh) 视频解码的方法和装置、计算机设备及存储介质
CN112753219A (zh) 用于视频编码的方法和装置
CN110971902B (zh) 视频解码的方法和装置、计算机设备
CN113574885A (zh) 视频编解码方法和装置
CN112235581B (zh) 视频解码方法、装置、存储介质及电子设备
CN111885387A (zh) 用于仿射光流预测值细化的视频解码方法和装置
CN113196745B (zh) 视频编解码的方法和装置
CN111971965A (zh) 视频编解码的方法和装置
CN113519159A (zh) 视频编解码的方法和装置
CN110971907B (zh) 视频编解码方法和装置、计算机设备及存储介质
CN113491113A (zh) 视频编解码的方法和装置
CN111316639A (zh) 用于子块运动矢量预测的方法和装置
US11272200B2 (en) Method and apparatus for video coding
CN112235573A (zh) 视频编解码的方法、装置、电子设备、存储介质
CN111726622A (zh) 视频解码的方法和装置
CN113498607A (zh) 用于小子块仿射帧间预测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051006

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant