CN110301135B - 解码视频数据的方法和装置以及计算机可读存储介质 - Google Patents

解码视频数据的方法和装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN110301135B
CN110301135B CN201880012054.6A CN201880012054A CN110301135B CN 110301135 B CN110301135 B CN 110301135B CN 201880012054 A CN201880012054 A CN 201880012054A CN 110301135 B CN110301135 B CN 110301135B
Authority
CN
China
Prior art keywords
block
pixel
video
motion information
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880012054.6A
Other languages
English (en)
Other versions
CN110301135A (zh
Inventor
陈义文
钱威俊
庄孝强
陈建乐
李翔
马尔塔·卡切维奇
孙宇辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110301135A publication Critical patent/CN110301135A/zh
Application granted granted Critical
Publication of CN110301135B publication Critical patent/CN110301135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/583Motion compensation with overlapping blocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于解码视频数据的实例装置包含:存储器,其经配置以存储视频数据;及视频解码器,其实施于电路系统中且经配置以进行以下操作:确定将使用解码器侧运动向量导出DMVD来导出所述视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。所述视频解码器可使用来自多个运动补偿块的多个假设预测来产生所述像素线索。所述视频解码器可根据不同预测方向之间的匹配成本而确定用于所述运动信息的帧间预测方向。所述视频解码器可使用用于所述像素线索的计算匹配成本来改进所述运动信息。

Description

解码视频数据的方法和装置以及计算机可读存储介质
本申请案主张2017年2月21日申请的美国临时申请案第62/461,729号、2017年2月24日申请的美国临时申请案第62/463,266号及2017年3月17日申请的美国临时申请案第62/472,919号的权益,所述美国临时申请案中的每一者的全部内容特此以引用的方式并入。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入至广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话——所谓的“智能电话”、视频电话会议装置、视频流式处理装置等等。数字视频装置实施视频译码技术,例如由ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ITU-T H.264/MPEG-4、Part 10、高级视频译码(AVC)、ITU-T H.265/高效率视频译码(HEVC)及这些标准的扩展所定义的标准中所描述的视频译码技术,所述扩展是例如可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。视频装置可通过实施这些视频译码技术来更高效地传输、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以缩减或移除视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频图片或视频图片的部分)可分割成视频块,视频块也可被称作译码树单元(CTU)、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测予以编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于待译码块的预测性块。残差数据表示原始待译码块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残差数据予以编码。经帧内译码块是根据帧内译码模式及残差数据予以编码。为了进一步压缩,可将残差数据从像素域变换至变换域,从而产生残差变换系数,残差变换系数接着可被量化。可扫描最初布置成二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多的压缩。
发明内容
大体来说,本发明描述关于解码器侧运动向量导出(DMVD)的技术。这些技术可应用于例如高效率视频译码(HEVC)的现有视频编解码器中的任一者,及/或可为任何未来视频译码标准中的高效译码工具。
在一个实例中,一种解码视频数据的方法包含:确定将使用解码器侧运动向量导出(DMVD)来导出视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。
在另一实例中,一种用于解码视频数据的装置包含:存储器,其经配置以存储视频数据;及视频解码器,其实施于电路系统中且经配置以进行以下操作:确定将使用解码器侧运动向量导出(DMVD)来导出所述视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。
在另一实例中,一种用于解码视频数据的装置包含:用于确定将使用解码器侧运动向量导出(DMVD)来导出视频数据的当前块的运动信息的装置;用于确定用于所述当前块的像素线索的装置,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;用于从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息的装置;及用于使用所述运动信息来解码所述当前块的装置。
在另一实例中,一种计算机可读存储媒体在其上存储有在执行时致使处理器进行以下操作的指令:确定将使用解码器侧运动向量导出(DMVD)来导出视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。
下文在附图及具体实施方式中阐述一或多个实例的细节。其它特征、目标及优点将从具体实施方式及附图以及从权利要求书显而易见。
附图说明
图1为绘示可利用用于执行本发明的解码器侧运动向量导出(DMVD)的技术的实例视频编码及解码系统的框图。
图2为绘示可实施用于执行本发明的解码器侧运动向量导出(DMVD)的技术的视频编码器的实例的框图。
图3为绘示可实施用于执行本发明的解码器侧运动向量导出(DMVD)的技术的视频解码器的实例的框图。
图4A及4B为绘示从相邻块导出的空间运动向量候选者的概念图。
图5A及5B为绘示用于时间运动向量预测值(TMVP)候选者的主要块部位的概念图。
图6为绘示关于用于导出当前块的运动信息的双边匹配的概念的概念图。
图7为绘示关于用于导出当前块的运动信息的模板匹配的概念的概念图。
图8为绘示实例帧速率向上转换(FRUC)模板匹配过程的流程图。
图9为绘示对图8的FRUC模板匹配过程的实例所提议改变的流程图。
图10为绘示关于用于所提议的即将进行的视频译码标准的联合探索模型(JEM)中的双向光学流的概念的概念图。
图11为绘示用于8×4块的梯度计算的实例的概念图。
图12为绘示关于基于双边模板匹配的所提议的解码器侧运动向量导出(DMVD)的概念的概念图。
图13A及13B为绘示关于JEM中的重叠块运动补偿(OBMC)的概念的概念图。
图14A至14D为绘示OBMC加权的概念图。
图15A及15B为根据本发明的技术的绘示用于像素线索的实例扩展区域的概念图。
图16为根据本发明的技术的绘示用于像素线索的另一实例扩展区域的概念图,其中所述扩展区域不规则。
图17A至17C为根据本发明的技术的绘示指派至各个像素的实例加权的概念图。
图18为根据本发明的技术的绘示指派至各个像素的权重值的另一实例的概念图。
图19A及19B为根据本发明的技术的绘示应用于像素的实例滤波器的概念图。
图20为根据本发明的技术的绘示用于编码视频数据的实例方法的流程图。
图21为根据本发明的技术的绘示用于解码视频数据的实例方法的流程图。
具体实施方式
大体来说,本发明的技术涉及解码器侧运动向量导出(DMVD)。即,视频解码器可单独地或以任何组合形式根据本发明的技术中的任一者或全部来导出运动向量,而非显式地用信号发送运动向量或其它运动信息。
大体来说,视频解码器可导出用于视频数据的当前块的运动信息,所述当前块为当前正被解码的块。为了导出运动信息,视频解码器首先可确定用于当前块的像素线索。像素线索通常对应于从一或多个经先前解码像素群组获得的像素数据。像素线索可为例如具有由运动向量识别的高可能性的一或多个块。视频解码器可根据双边模板匹配而确定这些块。另外或替代地,视频解码器可从相邻于当前块的像素及最接近于参考块的匹配相邻像素确定这些块,使得参考块形成像素线索。
在一些实例中,视频解码器可使用来自多个运动补偿块的多个假设预测来产生像素线索。举例来说,视频解码器可计算多个运动补偿块的加权平均值。另外或替代地,视频解码器可执行重叠块运动补偿以产生像素线索。作为又一实例,视频解码器可将偏移与当前块的一或多个运动向量相加,且从偏移运动向量(以及当前块的原始运动向量)导出多个运动补偿块。
在一些实例中,视频解码器可计算由用于当前块的经导出运动信息识别的第一参考块与第二参考块之间的匹配成本。视频解码器可通过将相应权重值应用于针对参考块的对应像素的成本测量来计算匹配成本,例如,针对第一成本测量应用第一权重且针对第二成本测量应用第二权重,其中权重及成本测量可彼此不同。视频解码器接着可基于匹配成本而改进运动信息。此外,视频解码器可基于当前块的对应像素与特定点之间的距离、像素线索的对应像素与特定点之间的距离、包含对应像素的行或列及/或包含对应像素的区而确定权重。
ITU-T视频译码专家团体(VCEG)及ISO/IEC动画专家团体(MPEG)的视频译码联合协作小组(JCT-VC)以及3D视频译码扩展开发联合协作小组(JCT-3V)最近已开发出新视频译码标准,名称为高效率视频译码(HEVC)(也被称作ITU-T H.265),包含其范围扩展、多视图扩展(MV-HEVC)及可缩放扩展(SHVC)。在下文中被称作HEVC WD的HEVC规范可得自phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip。
ITU-T VCEG(Q6/16)及ISO/IEC MPEG(JTC 1/SC 29/WG 11)的成员正研究对于压缩能力显著地超过当前HEVC标准(包含其当前扩展及针对屏幕内容译码及高动态范围译码的近期扩展)的压缩能力的未来视频译码技术的标准化的潜在需要。所述团体在被称为联合视频探索小组(JVET)的联合协作工作中正共同致力于此探索活动,以评估由其在此领域中的专家所提议的压缩技术设计。JVET在2015年10月19日至21日期间举行第一次会议。参考软件的版本,即,联合探索模型5(JEM 5),可得自jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-5.0。JEM 5的算法描述可得自phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=2714。
在HEVC中,切片中的最大译码单元被称为译码树块(CTB)或译码树单元(CTU)。CTB含有四叉树,四叉树的节点为译码单元。CTB的大小可在HEVC主规范中的16×16至64×64的范围内(但技术上可支持8×8CTB大小)。译码单元(CU)可与CTB具有相同大小,但可为且小到8×8。每一译码单元是使用一种模式予以译码。当CU被帧间译码时,其可进一步分割成2或4个预测单元(PU),或在进一步分割不适用时变为仅仅一个PU。当一个CU中存在两个PU时,其可为一半大小的矩形,或具有CU的1/4或3/4大小的两矩形大小。当CU被帧间译码时,针对每一PU存在一个运动信息集合。另外,每一PU是运由唯一帧间预测模式予以译码以导出运动信息集合。
在HEVC标准中,对于预测单元(PU)存在两种帧间预测模式,名称分别为合并(跳过被视为合并的特殊状况)及高级运动向量预测(AMVP)模式。在AMVP或合并模式中,针对多个运动向量预测值维持运动向量(MV)候选者列表。通过从MV候选者列表采取一个候选者而产生当前PU的运动向量,以及合并模式中的参考索引。
MV候选者列表含有用于合并模式的高达5个候选者及用于AMVP模式的仅两个候选者。合并候选者可含有运动信息集合,例如,对应于参考图片列表(列表0及列表1)及参考索引两者的运动向量。如果由合并索引识别合并候选者,那么将参考图片用于当前块的预测,以及确定关联运动向量。然而,在针对从列表0或列表1的每一潜在预测方向的AMVP模式下,需要显式地将参考索引连同MV预测值(MVP)索引一起用信号发送至MV候选者列表,这是因为AMVP候选者仅含有运动向量。在AMVP模式中,可进一步改进经预测运动向量。从上文可看出,合并候选者对应于运动信息完全集合,而AMVP候选者含有用于特定预测方向及参考索引的仅仅一个运动向量。相似地从相同空间及时间相邻块导出用于两种模式的候选者。
图1为绘示可利用用于执行本发明的解码器侧运动向量导出(DMVD)的技术的实例视频编码及解码系统10的框图。如图1所展示,系统10包含源装置12,源装置12提供稍后将由目的地装置14解码的经编码视频数据。具体地说,源装置12经由计算机可读媒体16将视频数据提供至目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手机、所谓的“智能”平板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式处理装置等等。在一些状况下,源装置12及目的地装置14可经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动至目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码视频数据直接传输至目的地装置14。经编码视频数据可根据例如无线通信协议的通信标准予以调制,且传输至目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成例如局域网、广域网或例如互联网的全球网络的基于数据包的网络的部分。通信媒体可包含路由器、交换机、基站,或可用于促进从源装置12至目的地装置14的通信的任何其它设备。
在一些实例中,可将经编码数据从输出接口22输出至存储装置。相似地,可由输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取数据存储媒体中的任一者,例如硬盘驱动器、蓝光(Blu-ray)光盘、DVD、CD-ROM、闪速存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在另外实例中,存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式处理或下载从存储装置存取经存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据传输至目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络连接存储(NAS)装置,或本地磁盘驱动器。目的地装置14可经由包含互联网连接的任何标准数据连接而存取经编码视频数据。这可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等等)或此两者的组合。从存储装置的经编码视频数据的传输可为流式处理传输、下载传输或其组合。
本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视传输、卫星电视传输、例如HTTP动态自适应流式处理(DASH)的互联网流式处理视频传输、编码至数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输来支持例如视频流式处理、视频回放、视频广播及/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于执行本发明的解码器侧运动向量导出(DMVD)的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从例如外部相机的外部视频源18接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包含集成显示装置。
图1的所绘示系统10仅仅为一个实例。用于执行本发明的解码器侧运动向量导出(DMVD)的技术可由任何数字视频编码及/或解码装置执行。尽管本发明的技术通常是由视频编码装置执行,但所述技术还可由通常被称作“编解码器(CODEC)”的视频编码器/解码器执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅仅为这些译码装置的实例,其中源装置12产生经译码视频数据以供传输至目的地装置14。在一些实例中,装置12、14可以大体上对称方式而操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播,例如,用于视频流式处理、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频捕获装置,例如视频相机、含有经先前捕获视频的视频存档,及/或用以从视频内容提供者接收视频的视频馈送接口。作为另外替代例,视频源18可产生作为源视频的基于计算机图形的数据,或实况视频、存档视频及计算机产生视频的组合。在一些状况下,如果视频源18为视频相机,那么源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般可适用于视频译码,且可应用于无线及/或有线应用。在每一状况下,可由视频编码器20编码经捕获、经预捕获或计算机产生视频。接着可由输出接口22将经编码视频信息输出至计算机可读媒体16上。
计算机可读媒体16可包含:暂时性媒体,例如无线广播或有线网络传输;或存储媒体(即,非暂时性存储媒体),例如硬盘、闪存驱动器、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未展示)可从源装置12接收经编码视频数据,且例如经由网络传输将经编码视频数据提供至目的地装置14。相似地,例如光盘冲压设施的媒体生产设施的计算装置可从源装置12接收经编码视频数据,且生产含有经编码视频数据的光盘。因此,在各个实例中,计算机可读媒体16可被理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息也由视频解码器30使用,其包含描述块及其它经译码单元的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
视频编码器20及视频解码器30可根据例如也被称作ITU-T H.265的高效率视频译码(HEVC)标准的视频译码标准而操作。替代地,视频编码器20及视频解码器30可根据例如被替代地称作MPEG-4的ITU-T H.264标准、Part 10、高级视频译码(AVC)或这些标准的扩展的其它专有或工业标准而操作。然而,本发明的技术并不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当MUX-DEMUX单元,或其它硬件及软件,以处置共同数据流或单独数据流中的音频及视频两者的编码。适用时,MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)的其它协议。
视频编码器20及视频解码器30各自可被实施为多种合适编码器电路系统中的任一者,例如一或多个微处理器、处理电路系统(包含固定功能电路系统及/或可编程处理电路系统)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术是部分地以软件予以实施时,装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中,且使用一或多个处理器在硬件中执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,所述一或多个编码器或解码器中的任一者可被集成为相应装置中的组合式编码器/解码器(编解码器)的部分。
大体来说,根据ITU-T H.265,可将视频图片划分成可包含亮度样本及色度样本两者的一连串译码树单元(CTU)(或最大译码单元(LCU))。替代地,CTU可包含单色数据(即,仅亮度样本)。位流内的语法数据可定义CTU的大小,就像素的数目来说,CTU为最大译码单元。切片包含按译码次序的数个连续CTU。视频图片可分割成一或多个切片。每一CTU可根据四叉树而拆分成译码单元(CU)。大体来说,四叉树数据结构包含每CU一个节点,其中根节点对应于CTU。如果将CU拆分成四个子CU,那么对应于CU的节点包含四个叶节点,所述四个叶节点中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的节点可包含拆分旗标,其指示对应于所述节点的CU是否拆分成子CU。用于CU的语法元素可被递归地定义,且可取决于CU是否拆分成子CU。如果CU未进一步拆分,那么其被称作叶CU。在本发明中,即使不存在原始叶CU的显式拆分,叶CU的四个子CU也将被称作叶CU。举例来说,如果16×16大小的CU未进一步拆分,那么尽管16×16CU从未拆分,但四个8×8子CU也被称作叶CU。
CU具有与H.264标准的宏块相似的用途,只是CU不具有大小差别除外。举例来说,CTU可拆分成四个子节点(也被称作子CU),且每一子节点又可为父节点且拆分成另外四个子节点。被称作四叉树的叶节点的最终未拆分子节点包括译码节点,也被称作叶CU。与经译码位流相关联的语法数据可定义CTU可被拆分的最大次数,被称作最大CU深度,且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用术语“块”以是指在HEVC的上下文中的CU、预测单元(PU)或变换单元(TU)中的任一者,或在其它标准的上下文中的相似数据结构(例如,H.264/AVC中的宏块及其子块)。
CU包含译码节点以及与译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且为大体上正方形形状。CU的大小的范围可为从8×8像素直到具有最大大小的CTU的大小,例如,64×64像素或更大。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式在CU被跳过或直接模式编码、帧内预测模式编码还是帧间预测模式编码之间可不同。PU可分割成非正方形形状。与CU相关联的语法数据还可描述例如根据四叉树将CU分割成一或多个TU。TU可为正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU进行变换,所述变换对于不同CU可不同。TU通常基于针对经分割CTU所定义的给定CU内的PU(或CU的分割区)的大小而设定大小,但可能并非总是此状况。TU的大小通常相同于或小于PU(或CU的分割区,例如在帧内预测的状况下)。在一些实例中,可使用被称为“残差四叉树”(RQT)的四叉树结构将对应于CU的残差样本再分为较小单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生可被量化的变换系数。
叶CU在使用帧间预测予以预测时可包含一或多个预测单元(PU)。大体来说,PU表示对应于对应CU的全部或部分的空间区域,且可包含用于检索及/或产生用于PU的参考样本的数据。此外,PU包含与预测相关的数据。当CU被帧间模式编码时,CU的一或多个PU可包含定义例如一或多个运动向量的运动信息的数据,或PU可被跳过模式译码。定义用于PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如,四分之一像素精确度或八分之一像素精确度)、运动向量所指向的参考图片,及/或用于运动向量的参考图片列表(例如,列表0或列表1)。
叶CU还可被帧内模式预测。大体来说,帧内预测涉及使用帧内模式来预测叶CU(或其分割区)。视频译码器可选择相邻于叶CU的经先前译码像素集合以用以预测叶CU(或其分割区)。
叶CU还可包含一或多个变换单元(TU)。可使用如上文所论述的RQT(也被称作TU四叉树结构)来指定变换单元。举例来说,拆分旗标可指示叶CU是否拆分成四个变换单元。接着,可将每一TU进一步拆分成另外子TU。当TU未进一步拆分时,其可被称作叶TU。通常,对于帧内译码,属于叶CU的所有叶TU共享相同帧内预测模式。即,通常应用相同帧内预测模式来计算叶CU的所有TU的经预测值。对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残差值计算为对应于所述TU的CU的部分与原始块之间的差。TU未必限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,CU的分割区或CU自身可与用于CU的对应叶TU共置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与被称作残差四叉树(RQT)的相应四叉树数据结构相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点通常对应于叶CU,而CU四叉树的根节点通常对应于CTU(或LCU)。未拆分的RQT的TU被称作叶TU。大体来说,本发明使用术语CU及TU以分别是指叶CU及叶TU,除非另有提及。
尽管关于HEVC而阐释某些技术,但应理解,本发明的技术并不限于HEVC。举例来说,可在根据例如四叉树二叉树(quadtree binary tree;QTBT)分割的其它分割方案来分割CTU时应用本发明的技术,而非使用根据HEVC的四叉树分割,在所述QTBT分割中,树数据结构可包含根据四叉树分割而分割的区树,且所述区树的叶节点可充当可根据二叉树及/或中心侧三叉树分割而分割的相应预测树的根节点。
视频序列通常包含一系列视频帧或图片,开始于随机存取点(RAP)图片。视频序列可包含序列参数集(SPS)中的语法数据,SPS包含视频序列的特性。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作,以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为一实例,可针对各种大小的PU执行预测。假定特定CU的大小为2N×2N,那么可对2N×2N或N×N的PU大小执行帧内预测,且可对2N×2N、2N×N、N×2N或N×N的对称PU大小执行帧间预测。还可针对2N×nU、2N×nD、nL×2N及nR×2N的PU大小执行用于帧间预测的不对称分割。在不对称分割中,CU的一个方向未分割,而另一方向分割成25%及75%。对应于25%分割区的CU的部分是由“n”后接“向上(Up)”、“向下(Down)”、“向左(Left)”或“向右(Right)”的指示进行指示。因此,举例来说,“2N×nU”是指2N×0.5N PU在顶部且2N×1.5NPU在底部的情况下水平地分割的2N×2N CU。
在本发明中,“N×N”及“N乘N”可互换地用以是指在竖直维度及水平维度上的视频块的像素尺寸,例如,16×16像素或16乘16像素。大体来说,16×16块将在竖直方向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样地,N×N块通常在竖直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可按行及列而布置。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包括N×M个像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器20可计算用于CU的TU的残差数据。PU可包括描述在空间域(也被称作像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在对残差视频数据应用例如离散余弦变换(DCT)、整数变换、小波变换或概念上相似变换的变换之后的变换域中的系数。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可将TU形成为包含表示用于CU的残差数据的经量化变换系数。即,视频编码器20可计算残差数据(呈残差块的形式),变换残差块以产生变换系数块,且接着量化变换系数以形成经量化变换系数。视频编码器20可形成包含经量化变换系数的TU,以及其它语法信息(例如,用于TU的拆分信息)。
如上文所提及,在进行任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量化通常是指量化变换系数以可能地缩减用以表示所述系数的数据量从而提供进一步压缩的过程。量化过程可缩减与所述系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值降值舍位至m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此,较低频率)系数放置于阵列前方,且将较低能量(且因此,较高频率)系数放置于阵列后方。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可被熵编码的系列化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来熵编码一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以由视频解码器30用来解码所述视频数据。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派至待传输符号。所述上下文可与例如符号的相邻值是否为非零相关。为了执行CAVLC,视频编码器20可选择用于待传输符号的可变长度码。VLC中的码字可经构造成使得相对较短码对应于较可能的符号,而较长码对应于较不可能的符号。以此方式,相对于例如针对每一待传输符号使用相等长度码字,使用VLC可实现位节省。概率确定可基于指派至符号的上下文。
大体来说,视频解码器30执行与由视频编码器20执行的过程大体上相似但互逆的过程,以解码经编码数据。举例来说,视频解码器30反量化及反变换经接收TU的系数以再生残差块。视频解码器30使用经用信号发送的预测模式(帧内预测或帧间预测)以形成经预测块。接着,视频解码器30组合经预测块与残差块(在逐像素基础上)以再生原始块。可执行额外处理,例如执行解块过程以缩减沿着块边界的视觉假象。此外,视频解码器30可以与视频编码器20的CABAC编码过程大体上相似但互逆的方式使用CABAC来解码语法元素。
视频编码器20可进一步例如在图片标头、块标头、切片标头中将例如基于块的语法数据、基于图片的语法数据及基于序列的语法数据的语法数据发送至视频解码器30,或发送例如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS)的其它语法数据。
适用时,视频编码器20及视频解码器30各自可被实施为多种合适编码器或解码器电路系统中的任一者,例如一或多个微处理器、处理电路系统(包含固定功能电路系统及/或可编程处理电路系统)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路系统、软件、硬件、固件,或其任何组合。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,所述一或多个编码器或解码器中的任一者可被集成为组合式视频编码器/解码器(编解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器,及/或无线通信装置,例如蜂窝电话。
根据本发明的技术,例如视频编码器20及视频解码器30的视频译码器可执行DMVD以导出用于视频数据的当前块的运动信息。具体地说,这些技术可单独地或以任何组合形式包含以下各者中的任一者或全部。
本发明的主要概念中的一者是改善解码器侧运动向量导出(DMVD)。所述技术在如下文所论述的若干不同列举方面中予以详述。可个别地应用用以改善DMVD的以下技术。替代地,可应用其任何组合。
DMVD途径的概念是使视频译码器(例如,视频编码器20或视频解码器30)使用经先前解码信息来导出运动信息,例如运动向量及预测方向。在当前途径中,首先导出像素群组,且接着使用像素群组来进一步导出运动信息。本发明将这些像素群组称作“像素线索”。举例来说,在FRUC模板匹配中,当前块及参考块的模板为像素线索;在FRUC双边匹配中,沿着参考块的运动轨迹的镜像对为像素线索;在双边模板匹配中,双向预测产生模板及参考块为像素线索;且在BIO中,参考块为像素线索。
视频译码器可将滤波器应用于像素线索。滤波器可为任何降噪滤波器,例如导引滤波器、双边滤波器、中值滤波器等等。滤波器还可为任何平滑滤波器,例如平均滤波器。此外,可在SPS/PPS/切片标头处用信号发送是否针对DMVD途径将滤波过程应用于(或不应用于)像素线索。
视频译码器(例如,视频编码器20或视频解码器30)可将任何运动改进方法应用于像素线索的产生。运动改进方法可含有但不限于包含BIO、FRUC模板匹配、FRUC双边匹配的现有方法。在一个实例中,当像素线索是由多个运动补偿(MC)块产生时,BIO可应用于像素线索以进一步改善像素线索的质量。举例来说,在双边模板匹配途径中,双边模板是通过L0及L1 MC块的平均化而产生。视频译码器可仅仅应用BIO以改进双边模板,且使用经改进双边模板来执行MV改进。可应用快速算法以避免可能的冗余操作。在双边模板匹配MV改进之后,如果MV相同于原始MV,那么视频译码器无需执行另一BIO及MC。因为双边模板将相同于最终预测值,所以视频译码器可直接使用双边模板作为最终预测值。
当像素线索是由运动补偿(MC)块产生时,视频译码器可使用例如多个MC块的加权平均值的多个假设预测来进一步改善像素线索。举例来说,可应用OBMC以产生像素线索。在另一实例中,可将当前块的运动向量加上偏移(即,+1或-1)用于当前MV的X或Y分量中的任一者或当前MV的X及Y分量两者来导出多个MC块。
视频译码器可反复地使用经改进MV来改善像素线索。举例来说,在双边模板匹配方法中,在导出经改进MV之后,可使用经改进MV来重新产生双边模板,且视频译码器可执行另一MV改进,且可重复MV改进反复直到达到一些预定义准则。在一个实例中,反复数目对于视频编码器20及视频解码器30两者是固定且预定义的。举例来说,将MV导出反复N次(N是固定且预定义的),且对于每一反复,根据先前反复的结果来改进像素线索,且接着使用经改进像素线索以执行MV导出。在另一实例中,当匹配成本小于(或等于)预定义阈值时,终止反复。在又一实例中,当匹配成本小于(或等于)预定义阈值或反复数目达到预定义数目时,终止反复。
除了相同颜色分量的像素线索以外,视频译码器还可使用任何或所有其它分量的像素线索来执行MV导出。此外,其它分量的像素线索可为经重构像素,所述经重构像素为关联的经用信号发送的残差的经预测像素。
为了产生参考数据,视频编码器20解码经编码视频数据,且将经解码视频数据存储于经解码图片缓冲器(DPB)中,例如,视频编码器20的存储器的部分。因此,视频编码器20可在预测性地编码后续视频数据时将DPB的数据用作参考。因为视频编码器20包含用于解码经编码视频数据的元件,所以视频编码器20可被称为包含视频解码器。
视频编码器20及/或视频解码器30可导出用于视频数据的当前块的运动信息,所述当前块为当前正被解码的块。为了导出运动信息,视频编码器20及/或视频解码器30首先可确定用于当前块的像素线索。像素线索通常对应于从一或多个经先前解码像素群组获得的像素数据。像素线索可为例如具有由运动向量识别的高可能性的一或多个块。视频编码器20及/或视频解码器30可根据双边模板匹配而确定这些块。另外或替代地,视频编码器20及/或视频解码器30可从相邻于当前块的像素及最接近于参考块的匹配相邻像素确定这些块,使得参考块形成像素线索。
在一些实例中,视频编码器20及/或视频解码器30可使用来自多个运动补偿块的多个假设预测来产生像素线索。举例来说,视频编码器20及/或视频解码器30可计算多个运动补偿块的加权平均值。另外或替代地,视频编码器20及/或视频解码器30可执行重叠块运动补偿以产生像素线索。作为又一实例,视频编码器20及/或视频解码器30可将偏移与当前块的一或多个运动向量相加,且从偏移运动向量(以及当前块的原始运动向量)导出多个运动补偿块。
在一些实例中,视频编码器20及/或视频解码器30可计算由用于当前块的经导出运动信息识别的第一参考块与第二参考块之间的匹配成本。视频编码器20及/或视频解码器30可通过将相应权重值应用于针对参考块的对应像素的成本测量来计算匹配成本,例如,针对第一成本测量应用第一权重且针对第二成本测量应用第二权重,其中权重及成本测量可彼此不同。视频编码器20及/或视频解码器30接着可基于匹配成本而改进运动信息。此外,视频编码器20及/或视频解码器30可基于当前块的对应像素与特定点之间的距离、像素线索的对应像素与特定点之间的距离、包含对应像素的行或列及/或包含相对应像素的区而确定权重。
图2为绘示可实施用于执行本发明的解码器侧运动向量导出(DMVD)的技术的视频编码器20的实例的框图。具体地说,视频编码器20可在解码环路期间执行本发明的DMVD技术,其包含由反量化单元58、反变换单元60及求和器62执行的过程。此外,如上文所论述,视频编码器20可用信号发送某些值,所述值可辅助例如视频解码器30的视频解码器执行DMVD。
视频编码器20可对视频切片内的视频块执行帧内译码及帧间译码。帧内译码依赖于空间预测以缩减或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以缩减或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的译码模式中的任一者。
如图2所展示,视频编码器20接收待编码视频帧内的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考图片存储器64(其也可被称作经解码图片缓冲器(DPB))、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。为了视频块重构,视频编码器20还包含反量化单元58、反变换单元60及求和器62。还可包含解块滤波器(图2中未展示)以便对块边界滤波,以从经重构视频移除块效应假象。视需要,解块滤波器通常将对求和器62的输出滤波。还可使用除了解块滤波器以外的额外滤波器(环路内或环路后)。出于简洁起见而未展示这些滤波器,但视需要,这些滤波器可对求和器50的输出滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码视频帧或切片。可将所述帧或切片划分成多个视频块。运动估计单元42及运动补偿单元44执行经接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性编码以提供时间预测。帧内预测单元46可替代地执行经接收视频块相对于与待译码块在同一帧或切片中的一或多个相邻块的帧内预测性编码以提供空间预测。视频编码器20可执行多个译码遍次,例如以选择用于每一视频数据块的适当译码模式。
此外,分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割成子块。举例来说,分割单元48最初可将帧或切片分割成CTU,且基于速率-失真分析(例如,速率-失真优化)而将所述CTU中的每一者分割成子CU。模式选择单元40可进一步产生指示将CTU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元40可例如基于误差结果而选择帧内预测模式或帧间预测模式中的一者,且将所得经预测块提供至求和器50以产生残差数据,并将所得经预测块提供至求和器62以重构经编码块以用作参考帧。模式选择单元40还将例如运动向量、帧内模式指示符、分割区信息及其它此类语法信息的语法元素提供至熵编码单元56。
运动估计单元42及运动补偿单元44可高度地集成,但出于概念目的而被单独地绘示。由运动估计单元42执行的运动估计为产生估计视频块的运动的运动向量的过程。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于在所述当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块为在像素差方面被发现接近地匹配于待译码块的块,所述像素差可由绝对差和(SAD)、平方差和(SSD)或其它差度量确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的次整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行相对于全像素位置及分数像素位置的运动搜索,且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述参考图片列表中的每一者识别存储于参考存储器64中的一或多个参考图片。运动估计单元42将计算运动向量发送至熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量而提取或产生预测性块。此外,在一些实例中,运动估计单元42及运动补偿单元44可功能上集成。在接收到用于当前视频块的PU的运动向量后,运动补偿单元44就可在所述参考图片列表中的一者中定位所述运动向量所指向的预测性块。求和器50通过从正被译码的当前视频块的像素值减去预测性块的像素值而形成残差视频块,从而形成像素差值,如下文所论述。大体来说,运动估计单元42执行相对于亮度分量的运动估计,且运动补偿单元44将基于亮度分量而计算的运动向量用于色度分量及亮度分量两者。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以由视频解码器30用来解码视频切片的视频块。
根据本发明的技术,模式选择单元40可确定运动补偿单元44将使用解码器侧运动向量导出技术来导出用于视频数据的当前块的运动信息。因此,运动补偿单元44可使用如上文及下文更详细地所论述的本发明的技术中的任一者或全部来产生用于当前块的运动信息。因此,运动补偿单元44可例如使用如本文中所论述的像素线索来导出用于视频数据块的运动信息,而非仅使用由运动估计单元42确定的运动信息。
运动补偿单元44可从例如存储于参考图片存储器64中的经先前解码图片的经先前解码像素的一或多个像素群组的像素数据确定像素线索。在一些实例中,运动补偿单元44可使用来自经先前解码图片的多个运动补偿块的多个假设预测来产生像素线索。
在一些实例中,为了导出运动信息,运动补偿单元44可根据不同预测方向之间的匹配成本而确定用于运动信息的帧间预测方向。帧间预测方向通常可对应于经导出运动信息是否是指list0、list1或list0及list1两者中的参考图片(即,双向预测)。
在一些实例中,运动补偿单元44可计算第一参考块与第二参考块之间的匹配成本。为了计算匹配成本,运动补偿单元44可计算两种或多于两种成本测量技术的加权平均值。举例来说,运动补偿单元44可执行第一参考块与第二参考块之间的差的第一成本测量,且接着执行这些差的第二不同成本测量。运动补偿单元44接着可例如通过将加权值应用于成本测量来加权成本测量。运动补偿单元44接着可将经加权成本测量累加(即,相加)以获得最终匹配成本,且接着使用所述匹配成本来改进运动信息。
在一些实例中,运动补偿单元44可例如基于运动向量是否相似于用于当前块的运动向量候选者列表中的其它运动向量候选者而确定是否使用经导出运动信息的一或多个运动向量。如果所述运动向量中的一或多者足够相似于现有运动向量候选者,那么运动补偿单元44可丢弃所述一或多个运动向量。
作为如上文所描述的由运动估计单元42及运动补偿单元44执行的帧间预测的替代例,帧内预测单元46可帧内预测当前块。具体地说,帧内预测单元46可确定待用以编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可例如在单独编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中为模式选择单元40)可从经测试模式选择适当帧内预测模式以供使用。
举例来说,帧内预测单元46可使用针对各种经测试帧内预测模式的速率-失真分析来计算速率-失真值,且可在所述经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测单元46可从各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最佳速率-失真值。
在选择用于块的帧内预测模式之后,帧内预测单元46可将指示用于块的经选择帧内预测模式的信息提供至熵编码单元56。熵编码单元56可编码指示经选择帧内预测模式的信息。视频编码器20可在经传输位流中包含以下各者:配置数据,其可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作码字映射表);用于各种块的编码上下文的定义;及待用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。
视频编码器20通过从正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残差视频块。求和器50表示执行此减去运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上相似变换的变换应用于残差块,从而产生包括变换系数值的视频块。可使用小波变换、整数变换、子带变换、离散正弦变换(DST)或其它类型的变换来代替DCT。在任何状况下,变换处理单元52将变换应用于残差块,从而产生变换系数块。变换可将残差信息从像素域转换至变换域,例如频域。变换处理单元52可将所得变换系数发送至量化单元54。量化单元54量化变换系数以进一步缩减位速率。量化过程可缩减与所述系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。
在量化之后,熵编码单元56熵译码经量化变换系数。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的状况下,上下文可基于相邻块。在熵编码单元56的熵译码之后,经编码位流可传输至另一装置(例如,视频解码器30)或存档以供稍后传输或检索。
反量化单元58及反变换单元60分别应用反量化及反变换以在像素域中重构残差块。具体地说,求和器62将经重构残差块与稍早由运动补偿单元44或帧内预测单元46产生的运动补偿预测块相加,以产生用于存储于参考图片存储器64中的经重构视频块。经重构视频块可由运动估计单元42及运动补偿单元44用作参考块以帧间译码后续视频帧中的块。
图3为绘示可实施用于执行本发明的解码器侧运动向量导出(DMVD)的技术的视频解码器30的实例的框图。在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、反量化单元76、反变换单元78、参考图片存储器82及求和器80。在一些实例中,视频解码器30可执行与关于视频编码器20(图2)所描述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量而产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符而产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及关联语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转递至运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级处接收语法元素。
当视频切片被译码为经帧内译码(I)切片时,帧内预测单元74可基于经用信号发送的帧内预测模式及来自当前帧或图片的经先前解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B或P)切片时,运动补偿单元72基于运动向量及从熵解码单元70接收的其它语法元素而产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储于参考图片存储器82中的参考图片而使用默认构造技术来构造参考帧列表:列表0及列表1。
运动补偿单元72通过剖析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用预测信息来产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元72使用经接收语法元素中的一些来确定用于译码视频切片的视频块的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、所述切片的参考图片列表中的一或多者的构造信息、所述切片的每一经帧间编码视频块的运动向量、所述切片的每一经帧间译码视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可执行基于内插滤波器的内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器,以计算参考块的次整数像素的内插值。在此状况下,运动补偿单元72可从经接收语法元素确定由视频编码器20使用的内插滤波器,且使用所述内插滤波器来产生预测性块。
根据本发明的技术,运动补偿单元72可确定使用解码器侧运动向量导出技术来导出用于视频数据的当前块的运动信息。因此,运动补偿单元72可使用如上文及下文更详细地所论述的本发明的技术中的任一者或全部来产生用于当前块的运动信息。因此,运动补偿单元72可例如使用如本文中所论述的像素线索来导出用于视频数据块的运动信息,而非仅使用由熵解码单元70解码的运动信息。
运动补偿单元72可从例如存储于参考图片存储器82中的经先前解码图片的经先前解码像素的一或多个像素群组的像素数据确定像素线索。在一些实例中,运动补偿单元72可使用来自经先前解码图片的多个运动补偿块的多个假设预测来产生像素线索。
在一些实例中,为了导出运动信息,运动补偿单元72可根据不同预测方向之间的匹配成本而确定用于运动信息的帧间预测方向。帧间预测方向通常可对应于经导出运动信息是否是指list0、list1或list0及list1两者中的参考图片(即,双向预测)。
在一些实例中,运动补偿单元72可计算第一参考块与第二参考块之间的匹配成本。为了计算匹配成本,运动补偿单元72可计算两种或多于两种成本测量技术的加权平均值。举例来说,运动补偿单元72可执行第一参考块与第二参考块之间的差的第一成本测量,且接着执行这些差的第二不同成本测量。运动补偿单元72接着可例如通过将加权值应用于成本测量来加权成本测量。运动补偿单元72接着可将经加权成本测量累加(即,相加)以获得最终匹配成本,且接着使用所述匹配成本来改进运动信息。
在一些实例中,运动补偿单元72可例如基于运动向量是否相似于用于当前块的运动向量候选者列表中的其它运动向量候选者而确定是否使用经导出运动信息的一或多个运动向量。如果所述运动向量中的一或多者足够相似于现有运动向量候选者,那么运动补偿单元72可丢弃所述一或多个运动向量。
反量化单元76反量化——即,解量化——位流中所提供且由熵解码单元70解码的经量化变换系数。反量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY以确定应被应用的量化程度且同样地确定应被应用的反量化程度。
反变换单元78将例如反DCT、反整数变换或概念上相似反变换过程的反变换应用于变换系数,以便在像素域中产生残差块。
在运动补偿单元72基于运动向量及其它语法元素而产生用于当前视频块的预测性块之后,视频解码器30通过对来自反变换单元78的残差块与由运动补偿单元72产生的对应预测性块求和而形成经解码视频块。求和器80表示执行此求和运算的一或多个组件。视需要,还可应用解块滤波器来对经解码块滤波,以便移除块效应假象。还可使用其它环路滤波器(在译码环路中或在译码环路之后)以使像素转变平滑,或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储于参考图片存储器82中,参考图片存储器82存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现于例如图1的显示装置32的显示装置上。
图4A及4B为绘示从相邻块导出的空间运动向量候选者的概念图。视频编码器20及/或视频解码器30可针对特定PU(例如,图4A的PU0 102及图4B的PU0 122,其分别包含于与PU1 104及PU1 124相同的对应CU中)而例如如图4A及4B所展示从相邻块导出空间MV候选者,但用于从块产生候选者的方法针对合并模式及AMVP模式而不同。在合并模式中,视频编码器20及/或视频解码器30可根据图4A中以数字展示的次序而导出高达四个空间MV候选者,如下:左侧(块112)、上方(块106)、右上方(块108)、左下方(块114),及左上方(块110)。
在AVMP模式中,视频编码器20及/或视频解码器30将相邻块划分成两个群组:左侧群组(包含块132及134),及上方群组(包含块130、126及128),如图4B所展示。对于每一群组,视频编码器20及/或视频解码器30参考与由经用信号发送的参考索引所指示的参考图片是同一个的具有最高优先级的参考图片而确定相邻块中的潜在候选者,以形成所述群组的最终候选者。有可能的是,相邻块不含有指向同一参考图片的运动向量。因此,如果不能找到此候选者,那么视频编码器20及/或视频解码器30可按比例缩放第一可用候选者以形成最终候选者,且因此可补偿时间距离差。
图5A及5B为绘示用于时间运动向量预测值(TMVP)候选者的主要块部位的概念图。视频编码器20及视频解码器30可在MV候选者列表中的空间运动向量候选者之后将时间运动向量预测值(TMVP)候选者(如果被启用且可用)添加至运动向量(MV)候选者列表中。对于合并模式及AMVP模式两者,用于TMVP候选者的运动向量导出过程相同。然而,在合并模式中用于TMVP候选者的目标参考索引可被设定为0。
用于PU的TMVP候选者导出的主要块部位为共置型PU(例如,PU0 140)外部的右下块。如图5A所展示的TMVP候选者导出的主要部位为块“T”142,以补偿对用以产生空间相邻候选者的上方及左侧块的偏置。然而,如果所述块位于当前CTB行外部,或运动信息不可用,那么将所述块取代为PU的中心块,例如,块144。
视频编码器20及视频解码器30可从切片层级中所指示的共置型图片的共置型PU导出用于TMVP候选者的运动向量。用于共置型PU的运动向量被称为共置型MV。相似于AVC中的时间直接模式,为了导出TMVP候选者运动向量,需要按比例缩放共置型MV以补偿时间距离差,如图5B所展示。
在合并模式及/或AMVP中,视频编码器20及/或视频解码器30可按比例缩放参考运动向量。图5B绘示图片之间的时间距离,例如,当前图片150与当前参考图片152之间的当前时间距离,及共置型图片154与共置型参考图片156之间的共置型时间距离。假定运动向量的值在呈现时间上与图片的距离成比例。运动向量使两个图片相关联:参考图片,及含有运动向量的图片(即,包容图片(containing picture))。当视频编码器20或视频解码器30使用一运动向量来预测另一运动向量时,视频编码器20或视频解码器30基于包容图片及参考图片的图片次序计数(POC)值而计算这些图片之间的距离。
对于待预测的运动向量,其关联包容图片及参考图片两者可不同。因此,视频编码器20及/或视频解码器30可计算新距离(基于POC)。视频编码器20及/或视频解码器30可基于这两种POC距离而按比例缩放运动向量。对于空间相邻候选者,用于两个运动向量的包容图片相同,而参考图片不同。在HEVC中,对于空间及时间相邻候选者,运动向量按比例缩放适用于TMVP及AMVP两者。
在一些实例中,视频编码器20及视频解码器30可执行人工运动向量候选者产生。如果运动向量候选者列表不完整,那么视频编码器20及视频解码器30可产生人工运动向量候选者,且将所述候选者插入于所述列表的末端处,直到所述列表具有所有所需候选者。
在合并模式中,存在两种类型的人工MV候选者:仅针对B切片导出的组合式候选者;及在第一类型未提供足够人工候选者的情况下,仅针对AMVP使用的零候选者。
对于已经在候选者列表中且具有必要运动信息的每一对候选者,通过参考列表0中的图片的第一候选者的运动向量与参考列表1中的图片的第二候选者的运动向量的组合而导出双向组合式运动向量候选者。
在一些状况下,视频编码器20及视频解码器30可在候选者插入之后执行修剪过程。来自不同块的候选者可能会恰巧相同,这会减小合并/AMVP候选者列表的效率。修剪过程可解决此问题。根据修剪过程,视频编码器20及视频解码器30可比较当前候选者列表中的一个候选者与其它候选者以在一定程度上避免相同候选者。为了缩减复杂性,仅应用有限数目种修剪过程,来代替比较每一潜在候选者与所有其它现有候选者。
在JEM参考软件中,存在若干帧间译码工具,其在解码器侧导出或改进用于当前块的运动向量(MV)。这些决定者侧MV导出(DMVD)途径是如下文所详述。
图6及7为绘示用于样式匹配运动向量导出(PMMVD)的概念的概念图。PMMVD模式为基于帧速率向上转换(FRUC)技术的特殊合并模式。就此模式来说,块的运动信息未被用信号发送,但在解码器侧被导出(例如,在由视频编码器20及视频解码器30执行的解码过程期间)。此技术包含于JEM中。
视频编码器20可在CU的合并旗标为真时用信号发送用于CU的FRUC旗标。当FRUC旗标为假时,视频编码器20用信号发送合并索引,且响应于在FRUC旗标的假值之后检测到合并索引,视频解码器30使用规则合并模式。当FRUC旗标为真时,视频编码器20可用信号发送额外FRUC模式旗标,以指示将使用哪一方法(双边匹配或模板匹配)来导出用于块的运动信息。因此,视频解码器30可使用FRUC旗标的假值来确定将存在FRUC模式旗标,且从FRUC模式旗标确定FRUC模式,例如,双边匹配或模板匹配。
在运动导出过程期间,视频编码器20及/或视频解码器30首先可基于双边匹配或模板匹配(根据FRUC模式旗标)而导出用于整个CU的初始运动向量。首先,视频编码器20及/或视频解码器30可检查CU的合并列表,或被称为PMMVD种子,且接着选择产生最小匹配成本的候选者作为开始点。接着,视频编码器20及/或视频解码器30可基于围绕开始点的双边匹配或模板匹配而实施本地搜索,且选择产生最小匹配成本的MV作为用于整个CU的MV。随后,视频编码器20及/或视频解码器30可进一步改进子块层级处的运动信息,其中经导出CU运动向量作为开始点。
图6为绘示关于用于导出当前图片180中的当前块160的运动信息的双边匹配的概念的概念图。如图6所展示,双边匹配用以通过沿着两个不同参考图片182、184中的当前块160的对应运动轨迹找到两个参考块之间(例如,R0块162与R1块164之间,及/或R'0块166与R'1块168之间)的最佳匹配而导出当前块160的运动信息。具体地说,运动向量170定义参考图片182中的R0块162相对于当前块160的位置的部位,而运动向量172定义参考图片184中的R1块164相对于当前块160的位置的部位。相似地,运动向量174定义参考图片182中的R'0块166相对于当前块160的位置的部位,而运动向量176定义参考图片184中的R'1块168相对于当前块160的位置的部位。
根据双边匹配,运动向量170、172具有与当前图片180与参考图片182、184之间的POC距离成比例的量值,且运动向量170处于至运动向量172的相对轨迹中。相似地,运动向量174、176具有与当前图片180与参考图片182、184之间的POC距离成比例的量值,且运动向量174具有至运动向量176的相对轨迹。即,如果运动向量具有x及y分量{x0,y0},那么在相对方向上具有相等量值的运动向量可由x及y分量{-x0,-y0}定义。换句话说,在假定连续运动轨迹的情况下,运动向量170、174及指向相应参考块的对应运动向量172、176(分别)应与当前图片180与参考图片182、184之间的时间距离成比例。作为特殊状况,当当前图片180在时间上介于参考图片182、184之间,且从当前图片180至参考图片182、184的时间距离相同时,双边匹配变为基于镜像的双向MV。
图7为绘示关于用于导出当前块190的运动信息的模板匹配的概念的概念图。如图7所展示,模板匹配用以通过找到当前图片210中的模板216(包含当前块190的顶部及/或左侧相邻块)与参考图片212、214中的一或多者中的参考模板218、220、222、224(各自具有与模板216相同的大小)中的一或多者之间的最佳匹配来导出当前块190的运动信息。视频编码器20及视频解码器30可使用参考块192、194、196、198中的一者来预测当前块190(根据相应运动向量200、202、204、206),其中参考模板218、220、222、224中的对应参考模板最接近地匹配于模板216。在各个实例中,视频编码器20及视频解码器30可使用运动向量200、202、204、206中的两者,例如,用于双向预测。
视频编码器20可根据速率-失真(RD)成本选择而确定是否将FRUC合并模式用于CU,如对于正常合并候选者所进行。即,视频编码器20通过使用RD成本选择而比较针对CU皆检查的两种匹配模式(双边匹配及模板匹配)。视频编码器20可选择产生最小RD成本的模式,且进一步比较用于此模式的RD成本与用于其它CU模式的成本。如果FRUC匹配模式为最高效的模式,那么视频编码器20可针对CU将FRUC旗标设定为真,且用信号发送相关匹配模式。同样地,视频解码器30可根据FRUC旗标是否被设定为真来确定预测模式,且如果FRUC旗标设定为真,那么确定用信号发送双边匹配或模板匹配中的哪一者。
图8为绘示实例帧速率向上转换(FRUC)模板匹配过程的流程图。在第5次JVET会议中,提议JVET-E0035以进一步改善FRUC模板匹配。图8中展示现有FRUC模板匹配模式的流程图。在第一步骤中,从list0参考图片找到匹配于当前块的当前模板Tc的模板T0(及其对应运动信息MV0)(230)。在第二步骤中,从list1参考图片找到模板T1(及其对应运动信息MV1)(232)。使用所获得的运动信息MV0及MV1来执行双向预测以产生当前块的预测值(234)。
图9为绘示对图8的FRUC模板匹配过程的实例所提议改变的流程图。视频编码器20及/或视频解码器30可如所展示而执行图9的步骤。可通过在单向预测与双向预测之间引入双向模板匹配及自适应选择来增强现有FRUC模板匹配模式。图9中以浅灰色阴影突出显示相对于图8的所提议修改。
基于现有单向模板匹配而实施所提议的双向模板匹配。如图9所展示,首先在模板匹配的第一步骤中从list0参考图片找到匹配模板T0(应注意,此处,list0仅被视为实例)(240)。事实上,第一步骤中是否使用list0或list1对于当前模板与对应参考图片中的初始模板之间的初始失真成本是自适应的。可运用在执行第一模板匹配之前可用的当前块的初始运动信息来确定初始模板。将在模板匹配的第一步骤中使用对应于最小初始模板失真成本的参考图片列表。举例来说,如果对应于list0的初始模板失真成本不大于对应于list1的成本,list0用于模板匹配的第一步骤中,且list1用于第二步骤中,那么如下更新(242)当前块的当前模板TC
T′C=2*TC-T0
使用经更新当前模板T'C来代替当前模板TC,以从第二模板匹配中的list1参考图片找到另一匹配模板T1。因此,通过联合地使用list0及list1参考图片而找到匹配模板T1(244)。此匹配过程被称为双向模板匹配。
用于运动补偿预测(MCP)的单向预测与双向预测之间的所提议选择是基于模板匹配失真。如图9所展示,在模板匹配期间,可将模板T0与TC(当前模板)之间的失真计算为cost0,且可将模板T1与T'C(经更新当前模板)之间的失真计算为cost1。如果cost0小于0.5*cost1(246的“是”分支),那么将基于MV0的单向预测应用于FRUC模板匹配模式(250);否则(246的“否”分支),应用基于MV0及MV1的双向预测(248)。应注意,比较cost0与0.5*cost1,这是因为cost1指示模板T1与T'C(经更新当前模板)之间的差,所述差为TC(当前模板)与其预测0.5*(T0+T1)之间的差的2倍。应注意,所提议方法仅应用于PU层级运动改进。子PU层级运动改进保持不变。
图10为绘示关于JEM中的双向光学流的概念的概念图。双向光学流(BIO)为在双向预测的状况下紧接着逐块运动补偿而执行的逐像素运动改进。因为BIO用以补偿块内部的精细运动,所以启用BIO可能会导致扩大用于运动补偿的块大小。样本层级运动改进并不需要穷举搜索或信号发送,这是因为存在针对每一样本给出精细运动向量的显式方程式。
使I(k)为块运动补偿之后来自参考k(k=0,1)的亮度值,且
Figure GDA0004014584130000251
分别为I(k)梯度的水平及竖直分量。假定光学流有效,那么由以下方程式给出运动向量场(vx,vy)
Figure GDA0004014584130000252
针对每一样本的运动轨迹来组合光学流方程式与埃尔米特(Hermite)内插会得到唯一三阶多项式,其最终匹配于函数值I(k)及导数
Figure GDA0004014584130000253
两者。在t=0下的此多项式的值为BIO预测:
Figure GDA0004014584130000254
此处,τ0及τ1表示至参考帧的距离,如图10所展示。距离τ0及τ1是针对Ref0图片262及Ref1图片264使用相对于B图片260的POC予以计算:τ0=POC(当前)-POC(Ref0),τ1=POC(Ref1)-POC(当前)。如果两种预测皆来自同一时间方向(两者皆来自过去或两者皆来自未来),那么正负号不同,τ0·τ1<0。在此状况下,仅在预测并非来自同一时刻(τ0≠τ1)时才应用BIO,参考区两者皆具有非零运动(MVx0,MVy0,MVx1,MVy1≠0),且块运动向量与时间距离成比例(MVx0/MVx1=MVy0/MVy1=-τ01)。
运动向量场(vx,vy)是通过最小化点A与点B(图6上的运动轨迹与参考帧平面的相交点)的值之间的差Δ予以确定。模型仅将局部泰勒(Taylor)展开式的第一线性项用于Δ:
Figure GDA0004014584130000255
(1)中的所有值取决于样本部位(i′,j′),其迄今为止被省略。假定运动在局部周围是一致的,那么我们最小化定中心于经当前预测点(i,j)的(2M+1)×(2M+1)正方形窗Ω内部的Δ:
Figure GDA0004014584130000261
对于此优化问题,使用在竖直方向上且接着在水平方向上进行第一次最小化的简化解。其得到
Figure GDA0004014584130000262
Figure GDA0004014584130000263
其中,
Figure GDA0004014584130000264
为了避免除以零或极小值,在方程式(2)、(3)中引入正则化参数r及m。
r=500·4d-8 (8)
m=700·4d-8 (9)
此处,d为输入视频的内部位深度。
在一些状况下,BIO的MV联队可能由于噪音或不规则运动而不可靠。因此,在BIO中,将MV联队的量值剪裁至某一阈值thBIO。所述阈值是基于当前图片的所有参考图片是否皆来自一个方向予以确定。如果当前图片的当前图片的所有参考图片皆来自一个方向,那么阈值的值被设定为12×214-d,否则,阈值的值被设定为12×213-d
使用与HEVC运动补偿过程一致的操作而在运动补偿内插的同时计算用于BIO的梯度(2D可分离FIR)。根据块运动向量的分数部分,用于此2D可分离FIR的输入为与用于运动补偿过程及分数位置(fracX,fracY)的参考帧样本相同的参考帧样本。在水平梯度
Figure GDA0004014584130000266
信号首先使用对应于解按比例缩放移位为d-8的分数位置fracY的BIOfilterS竖直地内插的状况下,那么在对应于解按比例缩放移位为18-d的分数位置fracX的水平方向上应用梯度滤波器BIOfilterG。在使用对应于解按比例缩放移位为d-8的分数位置fracY的BIOfilterG竖直地应用竖直梯度/>
Figure GDA0004014584130000265
第一梯度滤波器的状况下,那么使用BIOfilterS在对应于解按比例缩放移位为18-d的分数位置fracX的水平方向上执行信号位移。用于梯度计算BIOfilterG及信号位移BIOfilterF的内插滤波器的长度较短(6-抽头),以便维持合理的复杂性。表1展示用于BIO中的块运动向量的不同分数位置的梯度计算的滤波器。表2展示用于BIO中的预测信号产生的内插滤波器。
图11为绘示用于8×4块的梯度计算的实例的概念图。对于8×4当前块270,视频译码器(例如,视频编码器20或视频解码器30)提取运动补偿预测值且计算当前块270内的所有像素以及外部两列像素的水平/竖直(HOR/VER)梯度,这是因为针对每一像素求解vx及vy会需要定中心于每一像素的窗Ω内的像素的HOR/VER梯度值及运动补偿预测值,如方程式(4)所展示。且在JEM中,此窗的大小被设定为5×5。因此,视频译码器提取运动补偿预测值且计算用于点A 272及B 274周围的外部两列像素的梯度。
表1:用于BIO中的梯度计算的滤波器
分数像素位置 用于梯度的内插滤波器(BIOfilterG)
0 {8,-39,-3,46,-17,5}
1/16 {8,-32,-13,50,-18,5}
1/8 {7,-27,-20,54,-19,5}
3/16 {6,-21,-29,57,-18,5}
1/4 {4,-17,-36,60,-15,4}
5/16 {3,-9,-44,61,-15,4}
3/8 {1,-4,-48,61,-13,3}
7/16 {0,1,-54,60,-9,2}
1/2 {1,4,-57,57,-4,1}
表2:用于BIO中的预测信号产生的内插滤波器
分数像素位置 用于预测信号的内插滤波器(BIOfilterS)
0 {0,0,64,0,0,0}
1/16 {1,-3,64,4,-2,0}
1/8 {1,-6,62,9,-3,1}
3/16 {2,-8,60,14,-5,1}
1/4 {2,-9,57,19,-7,2}
5/16 {3,-10,53,24,-8,2}
3/8 {3,-11,50,29,-9,2}
7/16 {3,-11,44,35,-10,3}
1/2 {1,-7,38,38,-7,1}
在JEM中,当两个预测来自不同参考图片时,将BIO应用于所有双向预测块。当针对CU启用LIC时,停用BIO。
图12为绘示关于基于双边模板匹配的所提议的解码器侧运动向量导出(DMVD)的概念的概念图。视频译码器(例如视频编码器20或视频解码器30)可分别从list0的初始MV300及list1的初始MV 302产生双边模板308作为两个预测块292及298的经加权组合,如图12所展示。
视频译码器(视频编码器20或视频解码器30)可继续模板匹配操作,其包含计算经产生模板308与参考图片312、314中的样本区(初始预测块周围)之间的成本量度。对于参考图片312、314中的每一者,视频译码器可确定得到最小模板成本的MV为那个列表的经更新MV,以替换原始MV。最后,视频译码器将如图12所展示的两个新MV——即,MV 304及MV306——用于从对应块294、296的规则双向预测。如块匹配运动估计中所常用,绝对差和(SAD)可用作成本量度。
视频编码器20及视频解码器30可针对双向预测的合并模式应用解码器侧运动向量导出(DMVD),其中一者来自过去参考图片,且另一者来自未来参考图片,而无额外语法元素从视频编码器20传输至视频解码器30。在JEM4.0中,当针对一个CU选择LIC、仿射、子CU合并候选者或FRUC时,不应用DMVD。
图13A及13B为绘示关于JEM中的重叠块运动补偿(OBMC)的概念的概念图。OBMC已用于早期几代视频标准,例如,如在H.263中。在JEM中,针对所有运动补偿(MC)块边界执行OBMC,只是CU的右侧及底部边界除外。此外,其应用于亮度分量及色度分量两者。在JEM中,MC块对应于译码块。当CU是运用子CU模式(包含子CU合并、仿射及FRUC模式)被译码时,CU的每一子块为MC块。为了按统一方式处理CU边界,针对所有MC块边界在子块层级处执行OBMC,其中子块大小被设定为等于4×4,如图13A所绘示。举例来说,例如视频编码器20或视频解码器30的视频译码器可使用上方相邻子块324及/或左侧相邻子块326的运动向量而对图13A的当前子块322执行OBMC。
当OBMC应用于当前子块时,除了当前运动向量以外,四个连接相邻子块的运动向量在可用且不相同于当前子块的运动向量的情况下还用以导出用于当前子块的预测块。组合基于多个运动向量的这些多个预测块以产生当前子块的最终预测信号。
如图13B所展示,基于相邻子块的运动向量的预测块被表示为PN,其中N指示用于相邻上方子块332、下方子块338、左侧子块336及右侧子块334的索引,且基于当前子块330的运动向量的预测块被表示为PC。当PN是基于含有与当前子块相同的运动信息的相邻子块的运动信息时,不从PN执行OBMC。否则,将PN的每一像素与PC中的同一像素相加,即,将PN的四行/四列与PC相加。加权因数{1/4,1/8,1/16,1/32}用于PN,且加权因数{3/4,7/8,15/16,31/32}用于PC。例外为小MC块,(即,当译码块的高度或宽度等于4或CU是运用子CU模式被译码时),对于所述小MC块,将PN的仅两行/两列与PC相加。在此状况下,加权因数{1/4,1/8}用于PN,且加权因数{3/4,7/8}用于PC。对于基于竖直(水平)相邻子块的运动向量而产生的PN,以相同加权因数将PN的同一行(列)中的像素与PC相加。应注意,BIO也应用于导出预测块PN
图14A至14D为绘示OBMC加权的概念图。具体地说,图14A绘示用于扩展预测的上方子块,图14B绘示用于扩展预测的左侧子块,图14C绘示用于扩展预测的下方子块,且图14D绘示用于扩展预测的右侧子块。
在JEM中,对于大小小于或等于256个亮度样本的CU,用信号发送CU层级旗标以指示是否针对当前CU应用OBMC。对于大小大于256个亮度样本或未运用AMVP模式被译码的CU,根据默认而应用OBMC。视频编码器20可在如上文所论述的运动估计阶段期间考虑OBMC对CU的影响。视频编码器20可通过使用顶部相邻块及左侧相邻块的运动信息以补偿当前CU的原始信号的顶部及左侧边界而使用预测信号,且接着应用正常运动估计过程。
常规DMVD相关方法(BIO、FRUC双边匹配、FRUC模板匹配、双边模板匹配等等)提供显著位速率缩减。然而,常规途径中可能不会利用一些信息。本发明描述可进一步改善DMVD的若干技术,所述技术可由视频编码器20及/或视频解码器30执行。
图15A及15B分别为绘示用于当前块350、354的像素线索的扩展区域352、356的实例的概念图。当视频译码器(例如,视频编码器20或视频解码器30)从运动补偿(MC)块产生像素线索时,视频译码器可通过提取及导出更多参考像素来扩展像素线索的大小。举例来说,如果当前块的大小为M×N,那么视频译码器可导出(M+I)×(N+J)MV块作为像素线索。此外,扩展区域可具有任何形状。举例来说,如图15A所展示,扩展区域352为环绕当前块350的区域。作为另一实例,扩展区域可不对称。举例来说,如图15B所展示,扩展区域356与当前块354不对称。
此外,扩展区域还可不规则,如图16所展示。图16为绘示用于当前块358的另一实例扩展区域360的概念图。
图15A和图15B及16的扩展区域可充当由如上文所论述的FRUC模板匹配方法使用的模板。应注意,当视频译码器(例如,视频编码器20或视频解码器30)从当前图片导出像素线索时,扩展区域内的像素可为相邻经重构像素或运动补偿预测像素。
在另一实例中,视频译码器(例如,视频编码器20或视频解码器30)可决定是否包含来自顶部/右侧/底部/左侧的特定扩展区域。如果在特定方向出现对象遮挡,那么视频译码器使用来自特定相邻块的不同QP值,或当相邻块被照明补偿而无残差时,视频译码器可通过在具有及不具有特定模板的情况下计算SAD(或平均值被移除的SAD)值来检测这些事件。如果通过包含特定模板而累加的SAD值超过预定义阈值,那么视频译码器可选择不将特定模板包含至像素线索中。替代地,可从编码器侧用信号发送特定扩展区域的选择,以在解码器复杂性与译码性能之间提供较佳权衡。
在另一实例中,由于预测块的柔性形状的性质,当宽度对高度的比率或高度对宽度的比率高于预定义阈值时,模板的使用可限定于较长侧以用于更稳定的预测。也可在位流中用信号发送此阈值(例如,由视频编码器20,且由视频解码器30检索/解码)。
视频编码器20可导出可能可用于视频解码器30以使用像素线索来改善MV导出的任何额外信息。举例来说,视频编码器20可将残差或像素偏移用信号发送至视频解码器30,且可通过经用信号发送的残差或像素偏移来改善像素线索以执行较佳MV导出。
在现有DMVD途径中,在编码器侧及解码器侧两者处运用相同方法来导出用于块或子块的运动向量及预测方向(L0、L1或双向预测),使得无需在位流中用信号发送信息。本发明的技术可进一步改善这些导出途径,且扩展现有DMVD途径的范围以在解码器侧处确定更多预测信息(例如,在视频解码器30处,及/或在由视频编码器20执行的解码过程期间)。
在某些DMVD途径中,视频编码器20及视频解码器30可根据不同预测方向之间的匹配成本而确定帧间预测方向(L0、L1或双向预测)。举例来说,假定用于L0、L1及双向预测的匹配成本分别为CostL0、CostL1及CostBi,那么可通过挑选具有最小成本的预测方向来确定预测方向(基于较小成本意指较佳匹配结果的假定)。如下文所提及,匹配成本可为绝对差和(SAD)、平方差和(SSD)、绝对变换差和(SATD),或任何其它成本量度方法。
基于本发明的技术的开发期间的观测,已发现,双向预测通常提供更稳定的预测结果。因此,根据本发明的技术,视频译码器(例如,视频编码器20或视频解码器30)可将偏置值与匹配成本相加,使得优选地选择双向预测。在一个实例中,将用于列表0(L0)及列表1(L1)单向预测的成本按比例放大按比例缩放值(例如,等于1.25),且接着比较经按比例缩放的L0及L1成本与双向预测成本以选择最佳预测方向。在另一实例中,将用于双向预测的成本按比例缩小按比例缩放值(例如,等于0.75),且接着比较经按比例缩放的双向预测成本与L0及L1成本以选择最佳预测方向。按比例缩放值可在视频编码器20及视频解码器30两者处被预定义(例如,被预定义为配置信息),或替代地,视频编码器20可在位流中用信号发送按比例缩放值(且视频解码器30可解码按比例缩放值)。
视频译码器(例如,视频编码器20或视频解码器30)可使用像素线索来确定用于块的运动分割区(例如,2N×2N、2N×N、N×2N、N×N等等)。根据不同运动分割区将当前块划分成子块,且使用每一子块的关联像素线索来计算每一子块的成本。且接着将不同运动分割区之间的所有成本彼此进行比较,以确定用于当前块的最佳运动分割区。可将不同成本偏移与不同运动分割区相加,以调整运动分割区确定的精确度。
图17A至17C为根据本发明的技术的绘示给予至各个像素的实例加权的概念图。当计算匹配成本时,可使用绝对差和(SAD)、平方差和(SSD)、绝对变换差和(SATD)、平均值绝对差(MAD)、平均值平方差(MSD)或任何其它成本量度方法。根据本发明的技术,视频译码器可将加权应用于针对不同像素的成本计算。图17A至17C中展示实例。在图17A中,在FRUC模板匹配中,将不同加权给予至用于当前块370的模板372的不同行及列。在图17B中,当前块374的右下部分376及当前块374的残差部分378可使用不同加权(分别为W1及W0)。应注意,加权样式并不限定于图17A及17B的两个实例。
此外,根据例如块大小及经译码模式的经译码信息,加权可为自适应的。在一个实例中,将如图17A所展示的经加权SAD应用于FRUC模板匹配。对于宽度及高度两者皆等于或大于32的块,使用加权因数w0=1/2、w1=1/4、w2=1/8及w3=1/8。对于其它块,使用加权因数w0=1、w1=1/2、w2=1/4及w3=1/8。
此外,根据模板中的经重构像素,加权可为自适应的。取决于模板中的像素值或边缘结构的差异,可设计及应用加权。
在另一实例中,将如图17B所展示的加权SAD(或经加权SAD)应用于FRUC双边匹配或双边模板匹配,其中w0=1且w1=2。
当例如视频编码器20或视频解码器30的视频译码器对多于一个MV候选者执行解码器侧运动向量导出(DMVD)时,视频译码器可根据例如运动信息、像素信息、块大小等等的经译码信息将DMVD选择性地应用于MV候选者部分集合。在一个实例中,当一个MV候选者相似于或相同于先前导出的MV候选者时,视频译码器针对此MV候选者停用双边模板匹配(或从MV候选者列表移除此MV候选者)。更具体地说,在一些实例中,当一个MV候选者与先前导出的MV候选者中的任一者之间的MV差小于预定义阈值(例如,1像素)时,视频译码器针对此MV候选者停用双边模板匹配(或从MV候选者列表移除此MV候选者)。应注意,视频译码器可对L0及L1 MV两者的X及Y分量两者执行MV差检查。
在另一实例中,当一个MV候选者与先前导出的MV候选者中的任一者之间的MV差小于预定义阈值时,视频译码器可针对此MV候选者停用双边模板匹配(或可从MV候选者列表移除此MV候选者)。MV差的阈值对于不同块大小可不同。举例来说,对于小于64个像素样本的块,可将阈值设定为1/4像素;对于小于256个像素样本且大于或等于64个像素样本的块,可将阈值设定为1/2像素;对于其它大小的块,可将阈值设定为1像素。应注意,视频译码器可对L0及L1 MV两者的X及Y分量两者执行MV差检查。
在一些实例中,当例如视频编码器20或视频解码器30的视频译码器计算匹配成本时,视频译码器可计算例如以下各者中的任一者或全部:绝对差和(SAD)、平方差和(SSD)、绝对变换差和(SATD)、平均值移除SAD、平均值移除SSD,或任何其它成本量度方法。根据本发明的技术,视频译码器可将加权应用于针对不同像素的成本计算。以此方式,视频译码器可经配置为针对像素线索中的每一像素具有关联权重以计算经加权成本(例如,成本可为绝对差、平方差、绝对变换差、平均值移除绝对差或平均值移除平方差)。视频译码器接着使用像素线索内的像素的所有经加权成本的和以确定运动信息,例如运动向量、参考图片等等。存在如下文所说明的用以确定权重的各种方法。视频译码器可单独地或以任何组合形式应用以下实例技术中的任一者或全部:
1.视频译码器可根据视频数据的当前块的像素与任何特定点(例如,质心或拐角点)之间的距离而确定关联权重。在一个实例中,视频译码器将相对较低权重指派至与指定点相隔较高距离的像素,或反之亦然。视频译码器可将像素分类成群组,且为每一群组指派特定点。因此,视频译码器可根据当前块的群组中的像素与群组的特定点之间的距离而确定用于每一群组中的像素的关联权重。
2.视频译码器可根据像素线索(例如用于FRUC模板匹配中的模板)的像素与任何特定点(例如,质心或拐角点)之间的距离而确定关联权重。在一个实例中,视频译码器向较高距离指派较高权重,或反之亦然。在一些实例中,视频译码器可将像素分类成群组,且为每一群组指派特定点。因此,视频译码器可根据像素线索的群组中的像素与群组的特定点之间的距离而确定用于每一群组中的像素的关联权重。
3.视频译码器可使用如图17A及17C所展示的基于线的权重以供简化。图17C描绘当前块380及像素线索382。视频译码器可经配置为针对每一竖直或水平线具有权重(图17A中的W0至W3;图17C中的W0至W7)。为了进一步简化,视频译码器可经配置为针对若干相邻线具有相同权重。当前块的大小可被定义为M×N,其中M及N为可但未必相等的整数值(在图17C的实例中,当前块为8×8)。在一个实例中,每(M/O)线沿着水平侧共享相同权重,且每(N/O)线沿着竖直侧共享相同权重。在此实例中,M、N及O为任何正整数。在一个实例中,如果O=4,如在图17C的实例中,那么W0及W1相同;W2及W3相同;W4及W5相同;且W6及W7相同。应注意,可一起应用多个基于线的权重。举例来说,视频译码器可通过应用如图17A及17C所展示的基于线的权重两者而确定用于每一像素的关联权重。
4.对于基于线的权重,相邻线的权重可呈单调增大或减小次序。举例来说,对于图17B中的实例,权重可被约束为W0<=W1<=W2<=W3<=W4<=W5<=W6<=W7或w0>=W1>=W2>=W3>=W4>=W5>=W6>=W7。
5.为了实现进一步简化,可使用基于区的权重,如图17B所展示。视频译码器可将用于当前块374的像素线索中的像素划分成若干区。视频译码器可经配置为针对每一区具有关联权重。在图17C的实例中,向第一区378(区0)指派第一权重(W0),其中第一区包含白色像素,而向第二区376(区1)指派第二权重(W1),其中第二区包含灰色阴影像素且用虚线描画轮廓。
6.取决于例如块大小、块模式及经重构像素的译码信息,加权可为自适应的。举例来说,不同大小的块可具有不同权重集。因此,视频译码器可针对DMVD中所使用的当前块及/或参考块基于这些因数中的任一者或全部而自适应地确定加权。
图18为绘示应用于当前块384的像素线索386的权重值的另一实例的概念图。使用以上技术中的一些技术的组合的特定实例如下。在此实例中,当前块384为M×N块。在此实例中,使用基于水平线的权重及基于竖直线的权重两者。此外,在此实例中,每(M/4)竖直线沿着水平侧共享相同权重,且每(N/4)线沿着竖直侧共享相同权重。如图18所展示,对于宽度及高度两者皆等于或大于8的块,使用加权因数w0=1、w1=1、w2=1/2及w3=1/4,而w'0=1、w'1=1/2、w'2=1/2且w'3=0。对于其它块,使用加权因数w0=1、w1=1/2、w2=1/4及w3=0,而w'0=1、w'1=1、w'2=1且w'3=1。
视频译码器(例如,视频编码器20或视频解码器30)可对像素线索386执行滤波过程(例如,低通滤波器)及/或针对像素线索386执行预测,以改善导出的稳定性。图19A及19B为绘示用于此滤波过程的滤波器的实例的概念图。图19A绘示3乘3滤波器392的实例。在应用滤波器392之前,视频译码器(例如,视频编码器20或视频解码器30)可填补像素线索394外部的像素值,如图19B所展示。即,在图19B的实例中,出于应用滤波器以对像素线索的值滤波的目的,视频译码器可确定用于当前块390中加灰色阴影的像素的填补值(其在像素线索394外部)。如图19B所展示,将滤波器392应用于像素线索394的值及像素线索394外部的填补值以对像素线索394的值滤波。视频译码器可组合滤波器与经加权成本。权重可呈单调增大或减小次序。举例来说,权重可被约束为W1<=W2<=W3、W4<=W5<=W6、W7<=W8<=W9、W1<=W4<=W7、W2<=W5<=W8、W3<=W6<=W9、W1>=W2>=W3、W4>=W5>=W6、W7>=W8>=W9、W1>=W4>=W7、W2>=W5>=W8或W3>=W6>=W9。
图20为根据本发明的技术的绘示用于编码视频数据的实例方法的流程图。出于实例的目的,视频编码器20被描述为执行图20的技术,但应理解,在其它实例中,其它视频编码装置可执行此或相似方法。
在此方法中,假定视频编码器20先前已编码一或多个图片,且已接收待编码的当前图片的当前块。当前图片可为帧间预测被启用所针对的P图片、B图片或其它图片。视频编码器20的模式选择单元40可计算执行用于当前块的各种预测模式的速率-失真(RD)成本(400)。模式选择单元40接着可确定解码器侧运动向量导出(DMVD)在经测试模式当中得到最佳RD成本,且因此确定将DMVD用于当前块(402)。以此方式,视频编码器20可确定将使用DMVD来导出视频数据的当前块的运动信息。
模式选择单元40接着可向运动补偿单元44用信号发送DMVD将用以预测当前块。作为响应,运动补偿单元44可确定用于当前块的像素线索(404)。举例来说,运动补偿单元44可使用模板匹配、双边匹配、双边模板匹配、FRUC模板匹配等等中的一者来确定像素线索,如上文所论述。在一些实例中,运动补偿单元44可使用来自多个运动补偿块的多个假设预测来产生像素线索。举例来说,运动补偿单元44可计算多个运动补偿块的加权平均值,将重叠块运动补偿(OBMC)应用于像素线索,及/或将偏移与用于当前块的运动向量相加,且从偏移运动向量导出多个运动补偿块。用于当前块的运动向量可为例如根据合并及/或AMVP模式而确定的MV候选者(例如,从使用帧间预测而预测的相邻块)。以此方式,视频编码器20可确定用于当前块的像素线索,像素线索包括从一或多个经先前解码像素群组获得的像素数据。
运动补偿单元44最后可使用像素线索来导出运动信息(406)。大体来说,运动信息可包含参考对应于像素线索的一或多个参考块的一或多个运动向量。在一些实例中,运动补偿单元44可根据不同预测方向之间的匹配成本而确定用于经导出运动信息的帧间预测方向(例如,来自列表0的预测、来自列表1的预测,或双向预测)。举例来说,运动补偿单元44可选择具有最低经测试匹配成本的帧间预测方向。在一些实例中,如上文所论述,运动补偿单元44可例如通过使用缩减双向预测的匹配成本的权重及/或通过使用增大单向预测的匹配成本的权重来加权所得匹配成本,使得将匹配成本偏置为有利于双向预测。另外或替代地,运动补偿单元44可使用两种或多于两种不同成本测量过程来计算两个或多于两个参考块之间的匹配成本,且接着基于从使用各种成本测量过程所计算的匹配成本而计算的合计匹配成本来改进经导出运动信息。以此方式,视频编码器20可从像素线索根据DMVD而导出用于当前块的运动信息。
最后,运动补偿单元44可使用经导出运动信息来预测当前块(408),以形成用于当前块的预测块。运动补偿单元44可将此预测块传递至求和器50,求和器50从当前块的原始的未经译码版本减去预测块(在逐像素基础上),以计算包含用于当前块的残差数据的残差块(410)。变换处理单元52接着可将残差块变换至变换域(例如,频域),从而形成变换系数,且量化单元54可量化变换系数,以变换及量化残差数据(412)。最后,熵编码单元56可熵编码表示预测模式的数据(例如,FRUC旗标及匹配模式旗标),以及经量化变换系数(414)。
应理解,尽管视频编码器20被描述为视频编码过程的部分,但视频编码器20还执行解码过程。即,在变换及量化残差数据之后,反量化单元58反量化经量化变换系数以再生变换系数。接着,反变换单元60反变换所述变换系数以再生残差块。求和器62接着组合残差块与预测块,从而形成可存储于参考图片存储器64的经解码图片缓冲器中的经解码块。因此,由视频编码器20执行的过程可被称为包含视频数据的解码。同样地,以此方式,视频编码器20可使用根据DMVD而导出的运动信息来解码当前块。
以此方式,图20的方法表示一种解码视频数据的方法的实例,所述方法包含:确定将使用解码器侧运动向量导出(DMVD)来导出视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。
图21为根据本发明的技术的绘示用于解码视频数据的实例方法的流程图。出于实例的目的,视频解码器30被描述为执行图21的技术,但应理解,在其它实例中,其它视频编码装置可执行此或相似方法。
在此方法中,假定视频解码器30先前已解码一或多个图片,且已接收待解码的当前图片的当前块。当前图片可为帧间预测被启用所针对的P图片、B图片或其它图片。熵解码单元70可熵解码用于当前块的预测模式指示,以及用于当前块的经量化变换系数(420)。熵解码单元70可将预测模式指示传递至运动补偿单元72,且将经量化变换系数传递至反量化单元76。运动补偿单元72接着可从预测模式指示确定解码器侧运动向量导出(DMVD)将用于当前块(422)。以此方式,视频解码器30可确定将使用DMVD来导出视频数据的当前块的运动信息。
运动补偿单元72接着可确定用于当前块的像素线索(424)。举例来说,运动补偿单元72可使用模板匹配、双边匹配、双边模板匹配、FRUC模板匹配等等中的一者来确定像素线索,如上文所论述。在一些实例中,运动补偿单元72可使用来自多个运动补偿块的多个假设预测来产生像素线索。举例来说,运动补偿单元72可计算多个运动补偿块的加权平均值,将重叠块运动补偿(OBMC)应用于像素线索,及/或将偏移与用于当前块的运动向量相加,且从偏移运动向量导出多个运动补偿块。用于当前块的运动向量可为例如根据合并及/或AMVP模式而确定的MV候选者(例如,从使用帧间预测而预测的相邻块)。以此方式,视频解码器30可确定用于当前块的像素线索,像素线索包括从一或多个经先前解码像素群组获得的像素数据。
运动补偿单元72最后可使用像素线索来导出运动信息(426)。大体来说,运动信息可包含参考对应于像素线索的一或多个参考块的一或多个运动向量。在一些实例中,运动补偿单元72可根据不同预测方向之间的匹配成本而确定用于经导出运动信息的帧间预测方向(例如,来自列表0的预测、来自列表1的预测,或双向预测)。举例来说,运动补偿单元72可选择具有最低经测试匹配成本的帧间预测方向。在一些实例中,如上文所论述,运动补偿单元72可例如通过使用缩减双向预测的匹配成本的权重及/或通过使用增大单向预测的匹配成本的权重来加权所得匹配成本,使得将匹配成本偏置为有利于双向预测。另外或替代地,运动补偿单元72可使用两种或多于两种不同成本测量过程来计算两个或多于两个参考块之间的匹配成本,且接着基于从使用各种成本测量过程所计算的匹配成本而计算的合计匹配成本来改进经导出运动信息。以此方式,视频解码器30可从像素线索根据DMVD而导出用于当前块的运动信息。
最后,运动补偿单元72可使用经导出运动信息来预测当前块(428),以形成用于当前块的预测块。运动补偿单元72可将此预测块传递至求和器80。同时,反量化单元76反量化经量化变换系数以再生用于当前块的变换系数,且反变换单元78反变换所述变换系数以再生用于当前块的残差块(430)。反变换单元78将残差块传递至求和器80,求和器80将预测块与残差块相加(在逐像素基础上)(432),以解码当前块。
以此方式,图21的方法表示一种解码视频数据的方法的实例,所述方法包含:确定将使用解码器侧运动向量导出(DMVD)来导出视频数据的当前块的运动信息;确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息;及使用所述运动信息来解码所述当前块。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列被执行,可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时地而非按顺序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合予以实施。如果以软件予以实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含:计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体;或通信媒体,其包含例如根据通信协议而促进将计算机程序从一处传送至另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)为非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪速存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外、无线电及微波的无线技术而从网站、服务器或其它远程源传输指令,那么同轴电缆、光缆、双绞线、DSL或例如红外、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是涉及非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
指令可由例如以下各者的一或多个处理器执行:一或多个数字信号处理器(DSP)、通用微处理器、处理电路系统(包含固定功能电路系统及/或可编程处理电路系统)、专用集成电路(ASIC)、现场可编程门阵列(FPGA),或其它等效集成或离散逻辑电路系统。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种各样的装置或设备中,所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求由不同硬件单元来实现。更确切地,如上文所描述,各种单元可结合合适软件及/或固件而组合于编解码器硬件单元中或由互操作硬件单元集合提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各个实例。这些及其它实例在所附权利要求书的范围内。

Claims (37)

1.一种解码视频数据的方法,所述方法包括:
确定将使用解码器侧运动向量导出DMVD来导出视频数据的当前块的运动信息;
确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;
根据不同预测方向之间的匹配成本而确定用于所述运动信息的帧间预测方向,其中确定所述帧间预测方向包括通过将与单向预测相关联的加权成本按比例放大第一按比例缩放值和/或通过将与双向预测相关联的加权成本按比例缩小第二按比例缩放值以将所述匹配成本偏置为有利于双向预测;
从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息,其中导出所述运动信息包括根据DMVD而导出所述运动信息使得所述运动信息具有经确定帧间预测方向;及
使用所述运动信息来解码所述当前块。
2.根据权利要求1所述的方法,其中确定所述像素线索包括使用来自多个运动补偿块的多个假设预测来产生所述像素线索。
3.根据权利要求2所述的方法,其中产生所述像素线索包括计算所述多个运动补偿块的加权平均值。
4.根据权利要求2所述的方法,其中产生所述像素线索包括应用重叠块运动补偿以产生所述像素线索。
5. 根据权利要求2所述的方法,其进一步包括:
将偏移与所述当前块的运动向量相加;及
从偏移运动向量导出所述多个运动补偿块。
6.根据权利要求1所述的方法,其中确定所述帧间预测方向包括选择具有最小匹配成本的所述帧间预测方向。
7.根据权利要求1所述的方法,其中确定所述帧间预测方向包括选择来自list0的预测、来自list1的预测或双向预测中的一者。
8.根据权利要求1所述的方法,其中按比例缩放与所述单向预测相关联的加权成本的所述第一按比例缩放值包括1.25。
9.根据权利要求1所述的方法,其中按比例缩放与所述双向预测相关联的加权成本的所述第二按比例缩放值包括0.75。
10.根据权利要求1所述的方法,其中所述像素线索包括从第一参考图片的第一块及第二参考图片的第二块获得的像素数据,其中所述第一参考图片不同于所述第二参考图片,且其中导出所述运动信息包括:
计算所述第一块与所述第二块之间的匹配成本,其中计算所述匹配成本包括:
将第一权重应用于所述第一块及所述第二块的第一对应像素集合的第一成本测量;及
将不同于所述第一权重的第二权重应用于所述第一块及所述第二块的第二对应像素集合的第二成本测量;及
基于所述匹配成本而改进所述运动信息。
11. 根据权利要求10所述的方法,其进一步包括:
基于所述第一对应像素集合与所述当前块的第一特定点之间的距离而确定所述第一权重;及
基于所述第二对应像素集合与所述当前块的第二特定点之间的距离而确定所述第二权重。
12.根据权利要求11所述的方法,其中所述特定点包括所述当前块的质心或所述当前块的拐角中的一者。
13. 根据权利要求10所述的方法,其进一步包括:
基于所述第一对应像素集合与所述像素线索的第一特定点之间的距离而确定所述第一权重;及
基于所述第二对应像素集合与所述像素线索的第二特定点之间的距离而确定所述第二权重。
14.根据权利要求13所述的方法,其中所述特定点包括所述像素线索的质心或所述像素线索的拐角中的一者。
15. 根据权利要求10所述的方法,其进一步包括:
基于包含所述第一对应像素集合的第一行或包含所述第一对应像素集合的第一列中的至少一者而确定所述第一权重;及
基于包含所述第二对应像素集合的第二行或包含所述第二对应像素集合的第二列中的至少一者而确定所述第二权重。
16. 根据权利要求10所述的方法,其进一步包括:
基于包含所述第一对应像素集合的第一区而确定所述第一权重;及
基于包含所述第二对应像素集合的第二区而确定所述第二权重。
17.根据权利要求1所述的方法,其中导出所述运动信息包括将DMVD选择性地应用于所述当前块的运动向量候选者列表中的运动向量候选者部分集合,所述方法进一步包括:在使用所述运动信息来解码所述当前块之前,确定使用DMVD而导出的所述运动信息的运动向量与用于所述当前块的所述运动向量候选者列表中的至少一个运动向量候选者相差阈值。
18. 根据权利要求1所述的方法,其进一步包括使用经改进运动向量来反复地改进所述像素线索,其中反复地改进包括:
在导出经改进运动向量之后,使用所述经改进运动向量来重新产生双边模板;及
使用经重新产生双边模板来执行进一步运动向量改进。
19.根据权利要求1所述的方法,其进一步包括在从所述像素线索导出所述运动信息之前将一或多个滤波器应用于所述像素线索,其中所述一或多个滤波器包括导引滤波器、双边滤波器、中值滤波器、平滑滤波器或平均滤波器中的一或多者。
20.根据权利要求1所述的方法,其中确定所述像素线索包括使用运动改进来产生所述像素线索,其中运动改进包括双向光学流BIO、帧速率向上转换FRUC模板匹配或FRUC双边匹配中的一或多者。
21.根据权利要求1所述的方法,其中导出所述运动信息包括针对所述当前块的第一颜色分量导出所述运动信息,且其中确定所述像素线索包括使用所述第一颜色分量及第二颜色分量来产生所述像素线索。
22.根据权利要求1所述的方法,其中确定所述像素线索包括将所述像素线索产生为具有大于所述当前块的大小的大小,其中当所述当前块的大小为M×N时,其中M及N为整数值,产生所述像素线索包括从(M+I)×(N+J)运动补偿块产生所述像素线索,其中I及J为整数值。
23.根据权利要求1所述的方法,其中解码所述当前块包括:
使用所述运动信息来预测所述当前块以形成经预测块;
解码所述当前块的经量化变换系数;
反量化所述经量化变换系数以产生变换系数;
反变换所述变换系数以产生残差数据块;及
组合所述经预测块与所述残差数据块以形成经解码块。
24.根据权利要求1所述的方法,其进一步包括在解码所述当前块之前编码所述当前块。
25. 一种用于解码视频数据的装置,所述装置包括:
存储器,其经配置以存储视频数据;及
视频解码器,其实施于电路系统中且经配置以进行以下操作:
确定将使用解码器侧运动向量导出DMVD来导出所述视频数据的当前块的运动信息;
确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;
根据不同预测方向之间的匹配成本而确定用于所述运动信息的帧间预测方向,其中确定所述帧间预测方向包括通过将与单向预测相关联的加权成本按比例放大第一按比例缩放值和/或通过将与双向预测相关联的加权成本按比例缩小第二按比例缩放值以将所述匹配成本偏置为有利于双向预测;
从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息,其中导出所述运动信息包括根据DMVD而导出所述运动信息使得所述运动信息具有经确定帧间预测方向;及
使用所述运动信息来解码所述当前块。
26.根据权利要求25所述的装置,其中所述视频解码器经配置以使用来自多个运动补偿块的多个假设预测来产生所述像素线索。
27.根据权利要求25所述的装置,其中所述像素线索包括从第一参考图片的第一块及第二参考图片的第二块获得的像素数据,其中所述第一参考图片不同于所述第二参考图片,且其中为了导出所述运动信息,所述视频解码器经配置以进行以下操作:
计算所述第一块与所述第二块之间的匹配成本,其中为了计算所述匹配成本,所述视频解码器经配置以进行以下操作:
将第一权重应用于所述第一块及所述第二块的第一对应像素集合的第一成本测量;及
将不同于所述第一权重的第二权重应用于所述第一块及所述第二块的第二对应像素集合的第二成本测量;及
基于所述匹配成本而改进所述运动信息。
28.根据权利要求25所述的装置,其中所述视频解码器经进一步配置以进行以下操作:在使用所述运动信息来解码所述当前块之前,确定使用DMVD而导出的所述运动信息的运动向量与用于所述当前块的运动向量候选者列表中的其它运动向量候选者相差阈值。
29.根据权利要求25所述的装置,其进一步包括视频编码器,所述视频编码器包含所述视频解码器,所述视频编码器实施于电路系统中。
30.根据权利要求25所述的装置,其进一步包括显示器,所述显示器经配置以显示经解码视频数据。
31.根据权利要求25所述的装置,其中所述装置包括相机、计算机、移动装置、广播接收器装置或机顶盒中的一或多者。
32.一种用于解码视频数据的装置,所述装置包括:
用于确定将使用解码器侧运动向量导出DMVD来导出视频数据的当前块的运动信息的部件;
用于确定用于所述当前块的像素线索的部件,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;
用于根据不同预测方向之间的匹配成本而确定用于所述运动信息的帧间预测方向的部件,其中确定所述帧间预测方向包括通过将与单向预测相关联的加权成本按比例放大第一按比例缩放值和/或通过将与双向预测相关联的加权成本按比例缩小第二按比例缩放值以将所述匹配成本偏置为有利于双向预测;
用于从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息的部件,其中导出所述运动信息包括根据DMVD而导出所述运动信息使得所述运动信息具有经确定帧间预测方向;及
用于使用所述运动信息来解码所述当前块的部件。
33.根据权利要求32所述的装置,其中所述用于确定用于所述当前块的所述像素线索的部件包括用于使用来自多个运动补偿块的多个假设预测来产生所述像素线索的部件。
34.根据权利要求32所述的装置,其中所述像素线索包括从第一参考图片的第一块及第二参考图片的第二块获得的像素数据,其中所述第一参考图片不同于所述第二参考图片,且其中所述用于导出所述当前块的所述运动信息的部件包括:
用于计算所述第一块与所述第二块之间的匹配成本的部件,其中所述用于计算所述第一块与所述第二块之间的所述匹配成本的部件包括:
用于将第一权重应用于所述第一块及所述第二块的第一对应像素集合的第一成本测量的部件;及
用于将不同于所述第一权重的第二权重应用于所述第一块及所述第二块的第二对应像素集合的第二成本测量的部件;及
用于基于所述匹配成本而改进所述运动信息的部件。
35.一种计算机可读存储介质,其上存储有在执行时致使处理器进行以下操作的指令:
确定将使用解码器侧运动向量导出DMVD来导出视频数据的当前块的运动信息;
确定用于所述当前块的像素线索,所述像素线索包括从一或多个经先前解码像素群组获得的像素数据;
根据不同预测方向之间的匹配成本而确定用于所述运动信息的帧间预测方向,其中确定所述帧间预测方向包括通过将与单向预测相关联的加权成本按比例放大第一按比例缩放值和/或通过将与双向预测相关联的加权成本按比例缩小第二按比例缩放值以将所述匹配成本偏置为有利于双向预测;
从所述像素线索根据DMVD而导出用于所述当前块的所述运动信息,其中导出所述运动信息包括根据DMVD而导出所述运动信息使得所述运动信息具有经确定帧间预测方向;及
使用所述运动信息来解码所述当前块。
36.根据权利要求35所述的计算机可读存储介质,其中所述指令包括致使所述处理器使用来自多个运动补偿块的多个假设预测来产生所述像素线索的指令。
37.根据权利要求35所述的计算机可读存储介质,其中所述像素线索包括从第一参考图片的第一块及第二参考图片的第二块获得的像素数据,其中所述第一参考图片不同于所述第二参考图片,且其中所述致使所述处理器导出所述运动信息的指令包括致使所述处理器进行以下操作的指令:
计算所述第一块与所述第二块之间的匹配成本,其中所述指令包括致使所述处理器进行以下操作的指令:
将第一权重应用于所述第一块及所述第二块的第一对应像素集合的第一成本测量;及
将不同于所述第一权重的第二权重应用于所述第一块及所述第二块的第二对应像素集合的第二成本测量;及
基于所述匹配成本而改进所述运动信息。
CN201880012054.6A 2017-02-21 2018-02-21 解码视频数据的方法和装置以及计算机可读存储介质 Active CN110301135B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201762461729P 2017-02-21 2017-02-21
US62/461,729 2017-02-21
US201762463266P 2017-02-24 2017-02-24
US62/463,266 2017-02-24
US201762472919P 2017-03-17 2017-03-17
US62/472,919 2017-03-17
US15/900,649 2018-02-20
US15/900,649 US10701366B2 (en) 2017-02-21 2018-02-20 Deriving motion vector information at a video decoder
PCT/US2018/019018 WO2018156628A1 (en) 2017-02-21 2018-02-21 Deriving motion vector information at a video decoder

Publications (2)

Publication Number Publication Date
CN110301135A CN110301135A (zh) 2019-10-01
CN110301135B true CN110301135B (zh) 2023-06-30

Family

ID=63166227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880012054.6A Active CN110301135B (zh) 2017-02-21 2018-02-21 解码视频数据的方法和装置以及计算机可读存储介质

Country Status (7)

Country Link
US (1) US10701366B2 (zh)
EP (1) EP3586512A1 (zh)
CN (1) CN110301135B (zh)
BR (1) BR112019017252A2 (zh)
SG (1) SG11201906286QA (zh)
TW (1) TWI717586B (zh)
WO (1) WO2018156628A1 (zh)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6938612B2 (ja) * 2016-07-12 2021-09-22 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 画像復号方法、画像符号化方法、及び非一時的なコンピュータ可読の記録媒体
US10750203B2 (en) 2016-12-22 2020-08-18 Mediatek Inc. Method and apparatus of adaptive bi-prediction for video coding
FR3066873A1 (fr) 2017-05-29 2018-11-30 Orange Procedes et dispositifs de codage et de decodage d'un flux de donnees representatif d'au moins une image
WO2018225593A1 (ja) * 2017-06-05 2018-12-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
WO2019004283A1 (ja) * 2017-06-28 2019-01-03 シャープ株式会社 動画像符号化装置及び動画像復号装置
CN115118994B (zh) * 2017-08-22 2024-02-06 松下电器(美国)知识产权公司 图像编码器、图像解码器、和比特流生成设备
EP3451665A1 (en) * 2017-09-01 2019-03-06 Thomson Licensing Refinement of internal sub-blocks of a coding unit
WO2019072372A1 (en) * 2017-10-09 2019-04-18 Huawei Technologies Co., Ltd. MOTION VECTOR REFINEMENT OF A MOTION VECTOR POINTING TO A FRACTIONAL SAMPLE POSITION
CN111201795B (zh) * 2017-10-09 2022-07-26 华为技术有限公司 存储访问窗口和用于运动矢量修正的填充
CA3078804A1 (en) 2017-10-09 2019-04-18 Arris Enterprises Llc Adaptive unequal weight planar prediction
US11750832B2 (en) * 2017-11-02 2023-09-05 Hfi Innovation Inc. Method and apparatus for video coding
WO2019117640A1 (ko) * 2017-12-14 2019-06-20 엘지전자 주식회사 영상 코딩 시스템에서 인터 예측에 따른 영상 디코딩 방법 및 장치
WO2019191717A1 (en) 2018-03-30 2019-10-03 Hulu, LLC Template refined bi-prediction for video coding
US11317085B2 (en) * 2018-03-30 2022-04-26 Vid Scale, Inc. Template-based inter prediction techniques based on encoding and decoding latency reduction
US10375422B1 (en) * 2018-03-30 2019-08-06 Tencent America LLC Method and apparatus for motion field based tree splitting
US11343541B2 (en) * 2018-04-30 2022-05-24 Hfi Innovation Inc. Signaling for illumination compensation
JP2021523627A (ja) * 2018-05-10 2021-09-02 サムスン エレクトロニクス カンパニー リミテッド 映像の符号化及び復号のための映像の分割方法及びその装置
JP2021526325A (ja) * 2018-05-28 2021-09-30 インターデジタル ヴイシー ホールディングス, インコーポレイテッド 符号化/復号化におけるデータ依存関係
US10469869B1 (en) * 2018-06-01 2019-11-05 Tencent America LLC Method and apparatus for video coding
WO2019234600A1 (en) 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Interaction between pairwise average merging candidates and intra-block copy (ibc)
WO2019234674A1 (en) 2018-06-07 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Integer motion compensation
KR101997681B1 (ko) * 2018-06-11 2019-07-08 광운대학교 산학협력단 양자화 파라미터 기반의 잔차 블록 부호화/복호화 방법 및 장치
WO2020003274A1 (en) 2018-06-29 2020-01-02 Beijing Bytedance Network Technology Co., Ltd. Checking order of motion candidates in lut
CN113115046A (zh) 2018-06-21 2021-07-13 北京字节跳动网络技术有限公司 分量相关的子块分割
WO2019244117A1 (en) 2018-06-21 2019-12-26 Beijing Bytedance Network Technology Co., Ltd. Unified constrains for the merge affine mode and the non-merge affine mode
AU2019296308B9 (en) * 2018-06-28 2023-08-03 Huawei Technologies Co., Ltd. Memory access window and padding for motion vector refinement and motion compensation
CN110662057B (zh) 2018-06-29 2022-06-21 北京字节跳动网络技术有限公司 视频处理方法、装置、设备以及存储比特流的方法
MX2020013828A (es) 2018-06-29 2021-03-25 Beijing Bytedance Network Tech Co Ltd Interaccion entre lut y amvp.
BR112020024202A2 (pt) 2018-06-29 2021-02-17 Beijing Bytedance Network Technology Co., Ltd. método de processamento de dados de vídeo, aparelho de processamento de vídeo e meios de armazenamento e gravação legíveis por computador não transitório
CN115134599A (zh) 2018-06-29 2022-09-30 抖音视界有限公司 更新查找表(lut)的条件
EP3791589A1 (en) 2018-06-29 2021-03-17 Beijing Bytedance Network Technology Co. Ltd. Which lut to be updated or no updating
TWI752331B (zh) 2018-06-29 2022-01-11 大陸商北京字節跳動網絡技術有限公司 當向Merge/AMVP添加HMVP候選時的部分/完全修剪
JP7181395B2 (ja) 2018-07-02 2022-11-30 北京字節跳動網絡技術有限公司 イントラ予測モードを有するルックアップテーブルおよび非隣接ブロックからのイントラモード予測
TWI719519B (zh) 2018-07-02 2021-02-21 大陸商北京字節跳動網絡技術有限公司 對於dmvr的塊尺寸限制
US10911768B2 (en) * 2018-07-11 2021-02-02 Tencent America LLC Constraint for template matching in decoder side motion derivation and refinement
US10511852B1 (en) * 2018-07-13 2019-12-17 Tencent America LLC Method and apparatus for video coding
CN115842912A (zh) 2018-08-04 2023-03-24 抖音视界有限公司 不同解码器侧运动矢量推导模式之间的交互
MX2021002603A (es) * 2018-09-05 2021-07-21 Huawei Tech Co Ltd Método y aparato para codificar imagen de secuencia de video y dispositivo terminal.
TWI820211B (zh) 2018-09-12 2023-11-01 大陸商北京字節跳動網絡技術有限公司 取決於總數減去k的開始檢查hmvp候選的條件
KR20210071958A (ko) * 2018-09-21 2021-06-16 브이아이디 스케일, 인크. 양방향 옵티컬 플로우를 위한 복잡도 감소 및 비트 폭 제어
CN110944181B (zh) 2018-09-23 2023-03-10 北京字节跳动网络技术有限公司 仿射模型的多个假设
CN112806014A (zh) * 2018-09-24 2021-05-14 有限公司B1影像技术研究所 图像编码/解码方法和装置
TWI818086B (zh) 2018-09-24 2023-10-11 大陸商北京字節跳動網絡技術有限公司 擴展Merge預測
TW202029755A (zh) * 2018-09-26 2020-08-01 美商Vid衡器股份有限公司 視訊編碼雙預測
WO2020084475A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Utilization of refined motion vector
WO2020084460A1 (en) * 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Decoder side motion vector derivation in the presence of multi-hypothesis prediction
CN111083485A (zh) 2018-10-22 2020-04-28 北京字节跳动网络技术有限公司 仿射模式的运动信息的利用
CN112956197A (zh) * 2018-10-22 2021-06-11 北京字节跳动网络技术有限公司 基于编解码信息的解码器侧运动矢量推导的限制
CN111083484A (zh) 2018-10-22 2020-04-28 北京字节跳动网络技术有限公司 基于子块的预测
CN111131822B (zh) 2018-10-31 2023-08-01 北京字节跳动网络技术有限公司 具有从邻域导出的运动信息的重叠块运动补偿
MX2021004715A (es) 2018-11-05 2021-06-04 Beijing Bytedance Network Tech Co Ltd Interpolacion para interprediccion con refinamiento.
CN112956202A (zh) 2018-11-06 2021-06-11 北京字节跳动网络技术有限公司 利用几何分割的帧间预测的扩展
CN112970262B (zh) 2018-11-10 2024-02-20 北京字节跳动网络技术有限公司 三角预测模式中的取整
CN111436227B (zh) 2018-11-12 2024-03-29 北京字节跳动网络技术有限公司 在视频处理中使用组合帧间-帧内预测
CN112970258B (zh) * 2018-11-13 2023-08-18 北京字节跳动网络技术有限公司 用于子块预测块的多假设
CN113170171B (zh) 2018-11-20 2024-04-12 北京字节跳动网络技术有限公司 组合帧间帧内预测模式的预测细化
WO2020103852A1 (en) 2018-11-20 2020-05-28 Beijing Bytedance Network Technology Co., Ltd. Difference calculation based on patial position
CN111263147B (zh) 2018-12-03 2023-02-14 华为技术有限公司 帧间预测方法和相关装置
KR20200078378A (ko) * 2018-12-21 2020-07-01 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN113170166B (zh) 2018-12-30 2023-06-09 北京字节跳动网络技术有限公司 具有几何分割的帧间预测在视频处理中有条件的应用
KR20210084631A (ko) 2019-01-01 2021-07-07 엘지전자 주식회사 머지 데이터에 대한 정보를 코딩하는 방법 및 장치
CN113597760A (zh) 2019-01-02 2021-11-02 北京字节跳动网络技术有限公司 视频处理的方法
KR20240010576A (ko) 2019-01-10 2024-01-23 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Lut 업데이트의 호출
US11153590B2 (en) * 2019-01-11 2021-10-19 Tencent America LLC Method and apparatus for video coding
CN113348669A (zh) * 2019-01-13 2021-09-03 北京字节跳动网络技术有限公司 交织预测和其他编解码工具之间的交互
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
JP7201906B2 (ja) * 2019-01-15 2023-01-11 日本電信電話株式会社 参照領域決定装置及びプログラム
WO2020147772A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Motion candidates derivation
CN113475075B (zh) * 2019-02-13 2023-09-08 北京字节跳动网络技术有限公司 基于共享Merge列表的运动预测
WO2020164577A1 (en) * 2019-02-14 2020-08-20 Beijing Bytedance Network Technology Co., Ltd. Selective application of decoder side refining tools
KR102635518B1 (ko) 2019-03-06 2024-02-07 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 변환된 단예측 후보의 사용
WO2020183243A1 (en) * 2019-03-08 2020-09-17 Interdigital Vc Holdings France Motion vector derivation in video encoding and decoding
TWI738248B (zh) 2019-03-14 2021-09-01 聯發科技股份有限公司 運動細化以及子分區基礎填充的視訊處理的方法以及裝置
WO2020187198A1 (en) * 2019-03-17 2020-09-24 Beijing Bytedance Network Technology Co., Ltd. Prediction refinement based on optical flow
CN113615193A (zh) 2019-03-22 2021-11-05 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
US11962796B2 (en) * 2019-04-01 2024-04-16 Qualcomm Incorporated Gradient-based prediction refinement for video coding
CN113728651B (zh) 2019-04-02 2022-10-25 北京字节跳动网络技术有限公司 视频处理中的自适应环路滤波
CN113647099B (zh) 2019-04-02 2022-10-04 北京字节跳动网络技术有限公司 解码器侧运动矢量推导
WO2020211755A1 (en) * 2019-04-14 2020-10-22 Beijing Bytedance Network Technology Co., Ltd. Motion vector and prediction sample refinement
CN113711609B (zh) 2019-04-19 2023-12-01 北京字节跳动网络技术有限公司 利用光流的预测细化过程中的增量运动矢量
EP3922015A4 (en) 2019-04-19 2022-07-20 Beijing Bytedance Network Technology Co., Ltd. GRADIENT CALCULATION IN VARIOUS MOTION VECTOR REFINEMENTS
JP7303330B2 (ja) 2019-04-28 2023-07-04 北京字節跳動網絡技術有限公司 対称動きベクトル差分符号化
CN113812155B (zh) * 2019-05-11 2023-10-27 北京字节跳动网络技术有限公司 多种帧间编解码方法之间的交互
US11076169B2 (en) * 2019-05-14 2021-07-27 Qualcomm Incorporated Switchable interpolation filtering (SIF) for video coding
JP7431253B2 (ja) 2019-05-16 2024-02-14 北京字節跳動網絡技術有限公司 動き情報精緻化のサブ領域に基づいた決定
CN112135141A (zh) * 2019-06-24 2020-12-25 华为技术有限公司 视频编码器、视频解码器及相应方法
WO2021006617A1 (ko) * 2019-07-08 2021-01-14 현대자동차주식회사 인터 예측을 이용하여 비디오를 부호화 및 복호화하는 방법 및 장치
US11272203B2 (en) * 2019-07-23 2022-03-08 Tencent America LLC Method and apparatus for video coding
CN114503574A (zh) 2019-09-19 2022-05-13 北京字节跳动网络技术有限公司 视频编解码中的缩放窗口
CN117615155A (zh) 2019-09-19 2024-02-27 北京字节跳动网络技术有限公司 视频编解码中的参考样点位置推导
WO2020251418A2 (en) * 2019-10-01 2020-12-17 Huawei Technologies Co., Ltd. Method and apparatus of slice-level signaling for bi-directional optical flow and decoder side motion vector refinement
BR112022006453A2 (pt) 2019-10-05 2022-09-27 Beijing Bytedance Network Tech Co Ltd Método de processamento de dados de dados de vídeo, aparelho para processar dados de vídeo, meio de armazenamento não transitório legível por computador e meio de gravação não transitório legível por computador
CN114556918A (zh) * 2019-10-12 2022-05-27 北京字节跳动网络技术有限公司 细化视频编解码工具的使用和信令
WO2021073488A1 (en) 2019-10-13 2021-04-22 Beijing Bytedance Network Technology Co., Ltd. Interplay between reference picture resampling and video coding tools
CN117616756A (zh) * 2021-06-04 2024-02-27 抖音视界有限公司 用于视频处理的方法、设备和介质
US20230209060A1 (en) * 2021-12-29 2023-06-29 Mediatek Inc. Method and Apparatus for Multiple Hypothesis Prediction in Video Coding System
WO2024012396A1 (en) * 2022-07-14 2024-01-18 Mediatek Inc. Method and apparatus for inter prediction using template matching in video coding systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011002809A2 (en) * 2009-07-02 2011-01-06 Qualcomm Incorporated Template matching for video coding
WO2012083487A1 (en) * 2010-12-21 2012-06-28 Intel Corporation System and method for enhanced dmvd processing
CN105075259A (zh) * 2013-03-29 2015-11-18 高通股份有限公司 用于视频译码预测的存储器减少
CA2956082A1 (en) * 2014-08-22 2016-02-25 Qualcomm Incorporated Unify intra block copy and inter prediction

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539058B1 (en) * 1998-04-13 2003-03-25 Hitachi America, Ltd. Methods and apparatus for reducing drift due to averaging in reduced resolution video decoders
EP2269379B1 (en) 2008-04-11 2019-02-27 InterDigital Madison Patent Holdings Methods and apparatus for template matching prediction (tmp) in video encoding and decoding
US9729873B2 (en) * 2012-01-24 2017-08-08 Qualcomm Incorporated Video coding using parallel motion estimation
WO2017197146A1 (en) * 2016-05-13 2017-11-16 Vid Scale, Inc. Systems and methods for generalized multi-hypothesis prediction for video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011002809A2 (en) * 2009-07-02 2011-01-06 Qualcomm Incorporated Template matching for video coding
WO2012083487A1 (en) * 2010-12-21 2012-06-28 Intel Corporation System and method for enhanced dmvd processing
CN105075259A (zh) * 2013-03-29 2015-11-18 高通股份有限公司 用于视频译码预测的存储器减少
CA2956082A1 (en) * 2014-08-22 2016-02-25 Qualcomm Incorporated Unify intra block copy and inter prediction

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Algorithm Description of Joint Exploration Test Model 5 (JEM 5);Jianle Chen ET AL;《Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,5th Meeting: Geneva, CH, 12–20 January 2017》;20170211;第1-50页 *
E1: Decoder-Side Motion Vector Derivation with Switchable Template Matching;Yu-Wen Huang* ET AL;《Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11,2nd Meeting: Geneva, CH, 21-28 July, 2010》;20100723;第1-11页 *
Enhanced Template Matching in FRUC Mode;Yongbing Lin ET AL;《Joint Video Exploration Team(JVET) of ITU-T SG 16 WP3 and ISO/IEC JTC 1/SC 29/WG 11,5th Meeting: Geneva,CH,12–20 January 2017》;20170111;第1-4页 *

Also Published As

Publication number Publication date
BR112019017252A2 (pt) 2020-04-14
US20180241998A1 (en) 2018-08-23
TW201842766A (zh) 2018-12-01
CN110301135A (zh) 2019-10-01
SG11201906286QA (en) 2019-09-27
TWI717586B (zh) 2021-02-01
US10701366B2 (en) 2020-06-30
EP3586512A1 (en) 2020-01-01
WO2018156628A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
CN110301135B (zh) 解码视频数据的方法和装置以及计算机可读存储介质
US10595035B2 (en) Constraining motion vector information derived by decoder-side motion vector derivation
CN110915214B (zh) 用于运动向量推导的基于部分重构建的模板匹配
CN111602399B (zh) 改进的解码器侧运动矢量推导
CN110036638B (zh) 解码视频数据的方法、装置、设备及存储媒体
CN111164973B (zh) 译码用于视频译码的仿射预测运动信息
CN107690809B (zh) 使用空间及/或时间运动信息的子预测单元运动向量预测
CN110944172B (zh) 一种帧间预测方法和装置
CN111818343B (zh) 将当前图片用作视频译码的参考
WO2018200960A1 (en) Gradient based matching for motion search and derivation
CN111213376A (zh) 使用基于编码结构的候选列表构建对视频数据的运动信息进行编码
CN112437299B (zh) 一种帧间预测方法、装置及存储介质
CN110546956A (zh) 一种帧间预测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40008745

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant