CN111164977A - 视频译码中的仿射预测 - Google Patents

视频译码中的仿射预测 Download PDF

Info

Publication number
CN111164977A
CN111164977A CN201880064365.7A CN201880064365A CN111164977A CN 111164977 A CN111164977 A CN 111164977A CN 201880064365 A CN201880064365 A CN 201880064365A CN 111164977 A CN111164977 A CN 111164977A
Authority
CN
China
Prior art keywords
block
affine prediction
prediction
video
parameter affine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880064365.7A
Other languages
English (en)
Other versions
CN111164977B (zh
Inventor
张凯
陈建乐
赵欣
M·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111164977A publication Critical patent/CN111164977A/zh
Application granted granted Critical
Publication of CN111164977B publication Critical patent/CN111164977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于视频解码的装置可经配置以:从包括视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6‑参数仿射预测,其中对应于所述语法结构的所述块包括第一块;基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6‑参数仿射预测,使用所述6‑参数仿射预测产生用于所述第一块的预测性块;及使用所述预测性块及残余数据重构建所述第一块。

Description

视频译码中的仿射预测
本申请案要求保护2017年10月10日申请的美国临时申请案62/570,417的权益并要求保护2018年10月09日申请的美国申请案16/155,744的优先权,所述每一申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及用于视频译码的装置、系统及方法。
背景技术
数字视频频能力可并入至广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式发射装置及其类似者。数字视频装置实施视频压缩技术,如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、先进视频译码(AVC)第10部分、ITU-T H.265、高效率视频译码(HEVC)标准所定义的标准及这些标准的扩展中所描述的那些技术。视频装置可通过实施此类视频压缩技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频帧或视频帧的一部分)可分割成视频块(其也可被称作树型块)、译码单元(CU)及/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测来编码图片的经帧内译码(I)的切片中的视频块。图片的帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。空间或时间预测产生用于待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生可接着进行量化的残余变换系数。
发明内容
一般来说,本发明描述与基于块的视频译码中的图片间预测(更具体来说仿射运动补偿)相关的技术。本发明的技术可应用于当前或未来视频译码标准。
在一个实例中,一种用于解码视频数据的方法包含:从包括所述视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生所述第一块的预测性块;及使用所述预测性块及残余数据重构建所述第一块。
在另一实例中,一种用于编码视频数据的方法包含:确定针对对应于语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的块包括第一块;响应于确定针对对应于语法结构的块启用6-参数仿射预测,使用4-参数仿射预测或6-参数仿射预测中的一者来产生用于第一块的预测性块;使用所述预测性块来确定第一块的残余数据;及使残余数据及包括语法元素的语法结构包含于位流中,所述语法元素指示针对对应于所述语法结构的块启用所述6-参数仿射预测。
在另一实例中,一种用于解码视频数据的装置包含:存储器,其经配置以存储视频数据,及一或多个处理器,其耦合到所述存储器,实施于处理电路中且经配置以:从包括所述视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;基于所述语法元素指示针对对应于所述语法结构的块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生所述第一块的预测性块;及使用所述预测性块及残余数据重构建所述第一块。
在另一实例中,一种用于编码视频数据的装置,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理器,其耦合到所述存储器,实施于处理电路中且经配置以:确定针对对应于语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的块包括第一块;响应于确定针对对应于语法结构的块启用6-参数仿射预测,使用4-参数仿射预测或6-参数仿射预测中的一者来产生用于第一块的预测性块;使用所述预测性块来确定第一块的残余数据;及使残余数据及包括一语法元素的语法结构包含于位流中,所述语法元素指示针对对应于所述语法结构的块启用所述6-参数仿射预测。
在另一实例中,一种存储指令的计算机可读存储媒体,所述指令在由一或多个处理器执行使所述一或多个处理器:从包括视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的块包括第一块;基于所述语法元素指示针对对应于所述语法结构的块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生所述第一块的预测性块;及使用所述预测性块及残余数据重构建所述第一块。
在另一实例中,一种用于解码视频数据的设备包含:用于从包括视频数据的经编码表示的位流中的语法结构获得语法元素的装置,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的块包括第一块;用于基于所述语法元素指示针对对应于所述语法结构的块启用所述6-参数仿射预测而使用所述6-参数仿射预测产生所述第一块的预测性块的装置;及用于使用所述预测性块及残余数据重构建所述第一块的装置。
在随附图式及以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述、图式及权利要求书显而易见。
附图说明
图1为说明可利用本发明中所描述的一或多种技术的实例视频编码及解码系统的框图。
图2A及2B为说明实例四分树二元树(QTBT)结构及对应译码树型单元(CTU)的概念图。
图3A说明用于合并模式的空间相邻运动向量(MV)候选。
图3B说明用于先进运动向量预测(AMVP)模式的空间相邻MV候选。
图4为说明具有四个仿射参数的两点MV仿射模式的实例的概念图。
图5说明每一子块的仿射运动向量场(MVF)。
图6A为说明如在AF_INTER模式中所使用的当前块及相邻块的框图。
图6B说明实例仿射运动向量预测子集合候选列表。
图7A为说明用于如联合探测模型中所采用的仿射运动估计的实例策略的流程图。
图7B为用于仿射运动估计的实例反复策略的流程图。
图8A展示在以AF_MERGE模式译码当前块时使用的相邻块。
图8B说明在以仿射模式译码相邻左下块时的AF_MERGE。
图9为具有六个参数的仿射模型的概念图。
图10A为说明来自父块的仿射MV的实例运动种子的框图。
图10B为说明来自上代块的仿射MV的实例运动种子的框图。
图11为说明可实施本发明中所描述的一或多种技术的实例视频编码器的框图。
图12为说明可实施本发明中所描述的一或多种技术的实例视频解码器的框图。
图13为说明实例视频编码过程的流程图。
图14为说明实例视频解码过程的流程图。
具体实施方式
已经提出使用仿射运动模型以提供视频数据的进一步压缩。用于块的仿射运动模型表示一系列图片中的块的旋转。块的仿射运动模型可基于块的控制点的运动向量而确定。在一些实施中,块的控制点为块的左上方拐角及右上方拐角。在一些实施中,块的控制点进一步包含块的左下方拐角。视频译码器(即,视频编码器或视频解码器)可基于块的控制点的运动向量计算块的子块的运动向量。
已经提出两种用于用信号表示块的控制点的运动向量的主要技术。第一技术被称作仿射帧间模式。第二技术被称作仿射合并模式。在仿射帧间模式中,视频编码器产生当前块的仿射运动向量预测子(MVP)集合候选列表。仿射MVP集合候选列表为仿射MVP集合的列表。每一仿射MVP集合为对应于当前块的不同控制点的MVP的集合。视频编码器向视频解码器用信号表示一索引,所述索引识别仿射MVP集合候选列表中的所选择仿射MVP集合。另外,视频编码器用信号表示当前块的控制点中的每一者的运动向量差(MVD)。控制点的运动向量可等于控制点的MVD加上所选择仿射MVP集合中的用于控制点的运动向量预测子。视频编码器也用信号表示识别视频解码器与当前块一起使用的参考图片的参考索引。视频解码器产生相同仿射MVP集合候选列表并使用所用信号表示的索引以确定所选择仿射MVP集合。视频解码器可添加MVD到所选择仿射MVP集合的运动向量以确定当前块的控制点的运动向量。
在仿射合并模式中,视频编码器及视频解码器识别当前块的相同仿射源块。仿射源块可为在空间上与当前块相邻的仿射译码块。视频编码器及视频解码器从仿射源块的控制点的运动向量外推当前块的控制点的运动向量。举例来说,视频编码器及视频解码器可构建描述当前块内的位置的运动向量的仿射运动模型。仿射运动模型是由仿射参数的集合定义。视频编码器及视频解码器可基于当前块的控制点的运动向量确定仿射参数。视频编码器及视频解码器可基于仿射源块的控制点的运动向量确定当前块的控制点的运动向量。
如下文将更详细解释,本发明的技术可通过就可针对给定块执行的仿射预测的类型来说实现更多灵活性来改进与仿射预测相关联的总体成本,同时也保持高效传信信令。根据本发明的技术,可使用指示是否针对对应于语法结构的块启用6-参数仿射预测的语法元素(可能结合其它语法元素),以在某些类型的仿射预测导致经改进的视频压缩时实现那些类型的仿射预测,而且可在某些类型的仿射预测不会使压缩改进达一定量时降低与仿射预测相关联的位开销。因此,实施本发明的技术可使得视频编码及视频解码装置能够实现经改进的速率-失真折衷。
图1为说明可执行本发明的技术的实例视频编码及解码系统100的框图。本发明的技术一般是针对译码(编码及/或解码)视频数据。一般来说,视频数据包含用于处理视频的任何数据。因此,视频数据可包含原始未经译码的视频、经编码视频、经解码(例如经重构建)视频及视频元数据,诸如信令数据。
如图1中所示,在此实例中,系统100包含源装置102,其提供待由目的地装置116解码及显示的经编码视频数据。确切地说,源装置102经由计算机可读媒体110将视频数据提供到目的地装置116。源装置102及目的地装置116可为广泛范围装置中的任一者,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(如智能电话)、电视、相机、显示装置、数字媒体播放器、视频游戏主控台、视频流式发射装置或其类似者。在一些情况下,源装置102及目的地装置116可经装备用于无线通信,且由此可称为无线通信装置。
在图1的实例中,源装置102包含视频源104、存储器106、视频编码器20及输出接口108。目的地装置116包含输入接口122、视频解码器30、存储器120及显示装置118。根据本发明,源装置102的视频编码器20及目的装置116的视频解码器30可经配置以应用用于仿射预测的技术。由此,源装置102表示视频编码装置的实例,而目的地装置116表示视频解码装置的实例。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置102可从外部视频源(诸如,外部相机)接收视频数据。同样地,目的地装置116可与外部显示装置介接,而非包含集成式显示装置。
如图1中所示的系统100仅为一个实例。一般来说,任何数字视频编码及/或解码装置可执行用于仿射预测的技术。源装置102及目的地装置116仅为源装置102产生经译码视频数据以供发射到目的地装置116的此类译码装置的实例。本发明将“译码”装置称为对数据执行译码(编码及/或解码)的装置。因此,视频编码器20及视频解码器30表示译码装置的实例,确切地说,分别表示视频编码器及视频解码器的实例。在一些实例中,装置102、116可以基本上对称的方式操作,使得装置102、116中的每一者包含视频编码及解码组件。因此,系统100可支持视频装置102、116之间的单向或双向视频发射以用于(例如)视频流式发射、视频播放、视频广播或视频电话。
一般来说,视频源104表示视频数据源(即,原始未经译码的视频数据)且将视频数据的依序图片(也称为“帧”)序列提供到编码图片的数据的视频编码器20。源装置102的视频源104可包含视频捕捉装置,诸如,视频相机、含有先前捕捉的原始视频的视频存档及/或用以从视频内容提供者接收视频的视频馈入接口。作为另一替代,视频源104可产生基于计算机图形的数据作为源视频,或直播视频、存档视频及计算机产生的视频的组合。在每一情况下,视频编码器20对所捕捉、预先捕捉或计算机产生的视频数据进行编码。视频编码器20可将图片的接收次序(有时称作“显示次序”)重新排列成译码次序以用于译码。视频编码器20可产生包含经编码视频数据的位流。源装置102接着可经由输出接口108将经编码视频数据输出到计算机可读媒体110上以供由例如目的地装置116的输入接口122接收及/或检索。
源装置102的存储器106及目的地装置116的存储器120表示通用存储器。在一些实例中,存储器106、120可存储原始视频数据,例如来自视频源104的原始视频及来自视频解码器30的原始经解码视频数据。另外或可替代地,存储器106、120可存储可分别由例如视频编码器20及视频解码器30执行的软件指令。尽管在此实例中展示为与视频编码器20及视频解码器30分开,但应理解,视频编码器20及视频解码器30也可包含用于功能上类似或同等目的的内部存储器。此外,存储器106、120可存储(例如)从视频编码器20输入且输入到视频解码器30的经编码视频数据。在一些实例中,可分配存储器106、120的部分作为一或多个视频缓冲器,以例如存储原始、经解码及/或经编码视频数据。
计算机可读媒体110可表示能够将经编码视频数据从源装置102传送到目的地装置116的任何类型的媒体或装置。在一个实例中,计算机可读媒体110表示用以使源装置102能够(例如)经由射频网络或基于计算机的网络实时地将经编码视频数据直接发射到目的地装置116的通信媒体。根据诸如无线通信协议的通信标准,输出接口108可调制包含经编码视频数据的发射信号,且输入接口122可调制所接收的发射信号。通信媒体可包含无线或有线通信媒体中的一者或两者,诸如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(诸如,局域网、广域网或诸如因特网的全域网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置102到目的地装置116的通信的设备。
在一些实例中,源装置102可将经编码数据从输出接口108输出到存储装置112。类似地,目的地装置116可经由输入接口122从存储装置112存取经编码数据。存储装置112可包含多种分布式或本地存取的数据存储媒体中的任一者,诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。
在一些实例中,源装置102可将经编码视频数据输出到文件服务器114,或可存储由源装置102产生的经编码视频的另一中间存储装置。目的地装置116可经由流式发射或下载而从文件服务器114存取所存储的视频数据。文件服务器114可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置116的任何类型的服务器装置。文件服务器114可表示网页服务器(例如用于网站)、文件传送协议(FTP)服务器、内容递送网络装置或网络附接存储(NAS)装置。目的地装置116可经由包含因特网连接的任何标准数据连接从文件服务器114存取经编码视频数据。此可包含无线信道(例如Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或所述两者的适合于存取存储于文件服务器114上的经编码视频数据的组合。文件服务器114及输入接口122可经配置以根据流式发射协议、下载发射协议或其组合操作。
输出接口108及输入接口122可表示无线发射器/接收器、有线网络连接组件(例如,以太网卡)、根据各种IEEE 802.11标准中的任一者操作的无线通信组件或其它物理组件。在输出接口108及输入接口122包含无线组件的实例中,输出接口108及输入接口122可经配置以根据诸如4G、4G-LTE(长期演进)、先进LTE、5G或类似者的蜂窝通信标准来传送数据,诸如经编码视频数据。在输出接口108包含无线发射器的一些实例中,输出接口108及输入接口122可经配置以根据其它无线标准(诸如,IEEE 802.11规格、IEEE802.15规格(例如ZigBeeTM)、BluetoothTM标准或类似者)传送数据,诸如经编码视频数据。在一些实例中,源装置102及/或目的地装置116可包含相应芯片上系统(SoC)装置。举例来说,源装置102可包含SoC装置以执行归于视频编码器20及/或输出接口108的功能性,且目的地装置116可包含SoC装置以执行归于视频解码器30及/或输入接口122的功能性。
本发明的技术可应用于支持多种多媒体应用中的任一者的视频译码,诸如,空中电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(诸如,经由HTTP的动态自适应流式发射(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。
目的地装置116的输入接口122从计算机可读媒体110(例如,存储装置112、文件服务器114或类似者)接收经编码视频位流。经编码视频位流计算机可读媒体110可包含由视频编码器20定义的信令信息,其也由视频解码器30使用,诸如具有描述视频块或其它经译码单元(例如,切片、图片、图片群组、序列或类似者)的特征及/或处理的值的语法元素。显示装置118向用户显示经解码视频数据的经解码图片。显示装置118可表示各种显示装置中的任一者,诸如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
尽管图1中未示出,但在一些实例中,视频编码器20及视频解码器30可各自与音频编码器及/或音频解码器集成,且可包含合适的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及/或软件,以处置在共同数据流中包含音频及视频两者的多路复用流。如果适用,那么多路复用器-多路分用器单元可遵照ITU H.223多路复用器协议或诸如用户数据报协议(UDP)的其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器及/或解码器电路中的任一者,诸如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分以软件实施时,装置可将用于软件的指令存储于适合的非暂时性计算机可读媒体中,且使用一或多个处理器在硬件中执行所述指令,以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(编解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包含集成电路、微处理器及/或无线通信装置(诸如蜂窝电话)。
视频编码器20及视频解码器30可根据视频译码标准操作,诸如ITU-T H.265,也称为高效率视频译码(HEVC)或其扩展,诸如多视图及/或可调式视频译码扩展。可替代地,视频编码器20及视频解码器30可根据其它专用或工业标准(诸如联合探索测试模型(JEM))操作。然而,本发明的技术受限于不限于任何特定译码标准。
ITU-T VCEG(Q6/16)及ISO/IEC MPEG(JTC 1/SC 29/WG 11)现正研究对于将具有显著超过当前HEVC标准(包含其当前扩展及针对屏幕内容译码及高动态范围译码的近期扩展)的压缩能力的压缩能力的未来视频译码技术标准化的潜在需要。有迹象表明,译码效率的显著改进可通过利用视频内容(尤其用于如4K的高分辨率内容)的特征来获得,其中新颖的专用译码工具超出H.265/HEVC。基于ITU-T VCEG(Q6/16)及ISO/IEC MPEG(JTC 1/SC 29/WG 11)的著作,被称作多功能视频译码(VVC)标准的视频译码标准正由VCEG及MPEG的联合视频专家小组(JVET)开发。VVC的早期草案可在文件JVET-J1001“多功能视频译码(草案1)(Versatile Video Coding(Draft 1))”中获得且其算法描述可在文件JVET-J1002“多功能视频译码及测试模型1(VTM 1)的算法描述(Algorithm description for VersatileVideo Coding and Test Model 1(VTM 1))”中获得。
一般来说,视频编码器20及视频解码器30可执行图片的基于块的译码。术语“块”一般是指包含待处理(例如编码、解码或以其它方式在编码及/或解码过程中使用)的数据的结构。举例来说,块可包含照度及/或彩度数据样本的二维矩阵。一般来说,视频编码器20及视频解码器30可译码以YUV(例如Y、Cb、Cr)格式表示的视频数据。即,视频编码器20及视频解码器30可对照度及彩度分量进行译码,而非对图片的样本的红色、绿色及蓝色(RGB)数据进行译码,其中所述彩度分量可包含红色调及蓝色调色度分量两者。在一些实例中,视频编码器20在编码之前将所接收的RGB格式数据转换成YUV表示,且视频解码器30将YUV表示转换成RGB格式。可替代地,预处理单元及后处理单元(图中未示)可执行这些转换。
本发明一般可提及对图片的译码(例如编码及解码)包含编码或解码图片数据的过程。类似地,本发明可提及对图片块的译码包含编码或解码块数据的过程(例如,预测及/或残余译码)。经编码视频位流一般包含表示译码决策(例如译码模式)及将图片分割成块的语法元素的一系列值。因此,对图片或块的译码的提及一般应理解为对形成图片或块的语法元素的值进行译码。
HEVC定义各种块,包含译码单元(CU)、预测单元(PU)及变换单元(TU)。根据HEVC,视频译码器(诸如,视频编码器20)根据四分树结构将译码树型单元(CTU)分割成CU。即,视频译码器将CTU及CU分割成四个相同的非重叠正方形,且四分树的每一节点具有零个或四个子节点。不具有子节点的节点可称为“叶节点”,且此类叶节点的CU可包含一或多个PU及/或一或多个TU。视频译码器可进一步分割PU及TU。举例来说,在HEVC中,残余四分树(RQT)表示TU的分割。在HEVC中,PU表示帧间预测数据,而TU表示残余数据。经帧内预测的CU包含帧内预测信息,诸如帧内模式指示。
作为另一实例,视频编码器20及视频解码器30可经配置以根据JEM或VVC操作。根据JEM,视频译码器(诸如视频编码器20)将图片分割成多个CU。视频编码器20可根据树状结构(诸如四分树-二元树(QTBT)结构)分割CTU。JEM的QTBT结构移除多个分割类型的概念,诸如HEVC的CU、PU及TU之间的间距。JEM的QTBT结构包含两个级别:根据四分树分割分割的第一级别,及根据二元树分割分割的第二级别。QTBT结构的根节点对应于CTU。二元树的叶节点对应于译码单元(CU)。
在一些实例中,视频编码器20及视频解码器30可使用单一QTBT结构来表示照度及彩度分量中的每一者,而在其它实例中,视频编码器20及视频解码器30可使用两个或更多个QTBT结构,诸如用于照度分量的一个QTBT结构及用于两个彩度分量的另一QTBT结构(或用于相应色度分量的两个QTBT结构)。
视频编码器20及视频解码器30可经配置以使用根据HEVC的四分树分割、根据JEM的QTBT分割,或其它分割结构。出于解释的目的,关于QTBT分割呈现本发明的技术的描述。然而,应理解,本发明的技术也可应用于经配置以使用四分树分割也或其它类型的分割的视频译码器。
本发明可互换地使用“N×N”及“N乘以N”以指代关于竖直及水平尺寸的块(诸如,CU或其它视频块)的样本尺寸,例如16×16样本或16乘以16样本。一般来说,16×16CU在竖直方向上将具有16个样本(y=16)且在水平方向上将具有16个样本(x=16)。同样地,N×N块通常在竖直方向上具有N个样本且在水平方向上具有N个样本,其中N表示非负整数值。可按行及列来布置CU中的样本。此外,CU不一定在水平方向上及竖直方向上具有相同数目个样本。举例来说,CU可包含N×M个样本,其中M未必等于N。
视频编码器20编码CU的表示预测及/或残余信息及其它信息的视频数据。预测信息指示将对CU进行预测以形成CU的预测块的方式。残余信息一般表示编码前的CU与预测块的样本之间的逐样本差。
为了预测CU,视频编码器20一般可经由帧间预测或帧内预测形成CU的预测块。帧间预测一般是指从先前经译码图片的数据预测CU,而帧内预测一般是指从同一图片的先前经译码数据预测CU。为了执行帧间预测,视频编码器20可使用一或多个运动向量来产生预测块。视频编码器20可一般执行运动搜索以识别(例如)就CU与参考块之间的差异来说紧密地匹配CU的参考块。视频编码器20可使用绝对差总和(SAD)、平方差总和(SSD)、平均绝对差(MAD)、均方差(MSD)或其它此类差计算来计算差度量,以确定参考块是否紧密匹配当前CU。在一些实例中,视频编码器20可使用单向预测或双向预测来预测当前CU。
JEM也提供仿射运动补偿模式,其可被视为帧间预测模式。在仿射运动补偿模式中,视频编码器20可确定表示非平移运动(诸如放大或缩小、旋转、透视运动或其它不规则运动类型)的两个或更多个运动向量。
为了执行帧内预测,视频编码器20可选择帧内预测模式以产生预测块。JEM提供六十七种帧内预测模式,包含各种定向模式以及平面模式及DC模式。一般来说,视频编码器20选择从其预测当前块的样本的帧内预测模式,其描述与当前块(例如CU的块)相邻的样本。此类样本一般可与当前块在同一图片中,在当前块的上方、左上方或左侧,假设视频编码器20以光栅扫描次序(左到右、上到下)对CTU及CU进行译码。
视频编码器20编码表示当前块的预测模式的数据。举例来说,对于帧间预测模式,视频编码器20可编码表示使用多种可用帧间预测模式中的哪一者以及对应模式的运动信息的数据。例如,对于单向或双向帧间预测,视频编码器20可使用先进运动向量预测(AMVP)或合并模式来编码运动向量。视频编码器20可使用类似模式来编码仿射运动补偿模式的运动向量。
在块的预测(如帧内预测或帧间预测)之后,视频编码器20可计算所述块的残余数据。残余数据(如残余块)表示块与所述块的使用对应预测模式所形成的预测块之间的逐样本差。视频编码器20可将一或多个变换应用于残余块,以在变换域而非样本域中产生经变换数据。举例来说,视频编码器20可将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残余视频数据。另外,视频编码器20可在一级变换之后应用次级变换,诸如模式依赖性不可分次级变换(MDNSST)、信号依赖性变换、卡-洛(Karhunen-Loeve)变换(KLT)或其类似者。视频编码器20在应用一或多个变换之后产生变换系数。
如上文所提及,在任何变换以产生变换系数后,视频编码器20可执行变换系数的量化。量化一般是指量化变换系数以可能地减少用以表示系数的数据量从而提供进一步压缩的过程。通过执行量化过程,视频编码器20可减少与系数中的一些或所有相关联的位深度。举例来说,视频编码器20可在量化期间将n位值舍入到m位值,其中n大于m。在一些实例中,为了执行量化,视频编码器20可执行待量化值的按位右移位。
在量化之后,视频编码器20可扫描变换系数,从而从包含量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于向量前部,且将较低能量(且因此较高频率)变换系数置于向量后部。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生串列化向量,且随后对向量的经量化变换系数进行熵编码。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应二进制算术译码(CABAC)对一维向量进行熵编码。视频编码器20也可对描述与经编码视频数据相关联的元数据的语法元素的值进行熵编码,以供由视频解码器30用于解码视频数据。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指配给待发射的符号。所述上下文可能涉及(例如)符号的相邻值是否为零值。机率确定可基于经指配给符号的上下文而进行。
视频编码器20可进一步(例如)在图片标头、块标头、切片标头或其它语法数据(诸如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS))中将语法数据(诸如,基于块的语法数据、基于图片的语法数据及基于序列的语法数据)产生至视频解码器30。视频解码器30可同样地对此类语法数据进行解码以确定解码对应视频数据的方式。
以此方式,视频编码器20可产生位流,包含经编码视频数据(例如,描述将图片分割成块(例如CU)的语法元素)及块的预测及/或残余信息。最后,视频解码器30可接收位流并解码经编码视频数据。
一般来说,视频解码器30执行与由视频编码器20执行的过程互逆的过程,以解码位流的经编码视频数据。举例来说,视频解码器30可使用CABAC以与视频编码器20的CABAC编码过程基本上类似但互逆的方式解码位流的语法元素的值。语法元素可定义图片至CTU的分割信息及每一CTU根据对应分区结构(诸如QTBT结构)的分割,以定义CTU的CU。语法元素可进一步定义视频数据的块(例如CU)的预测及残余信息。
残余信息可由例如经量化变换系数表示。视频解码器30可对块的经量化变换系数进行反量化及反变换,以再生块的残余块。视频解码器30使用用信号表示的预测模式(帧内或帧间预测)及相关预测信息(例如,用于帧间预测的运动信息)来形成块的预测块。视频解码器30接着可(在逐样本基础上)使预测块与残余块组合以再生原始块。视频解码器30可执行额外处理,诸如执行解块过程以减少沿块边界的视觉伪影。
本发明通常可指“用信号表示”某些信息,诸如语法元素。术语“信令”一般可指用于解码经编码视频数据的语法元素及/或其它数据的值的传达。即,视频编码器20可在位流中用信号表示语法元素的值。一般来说,信令是指在位流中产生值。如上文所提及,源装置102可基本上实时地将位流传送到目的地装置116,或不实时传送,诸如可在将语法元素存储到存储装置112以供目的地装置116稍后检索时发生。
图3A及3B为说明实例QTBT结构130及对应CTU 132的概念图。实线表示四分树分裂,且点线指示二元树分裂。在二元树的每一分裂(即,非叶)节点中,用信号表示一个旗标以指示使用哪一分裂类型(即,水平或竖直),其中在此实例中,0指示水平分裂且1指示竖直分裂。对于四分树分裂,不需要指示分裂类型,这是由于四分树节点将块水平地及竖直地分裂成具有相等大小的4个子块。因此,视频编码器20可编码,且视频解码器30可解码用于QTBT结构130的区域树级别(即实线)的语法元素(诸如分裂信息)及用于QTBT结构130的预测树级别(即虚线)的语法元素(诸如分裂信息)。视频编码器20可编码,且视频解码器30可解码用于由QTBT结构130的端叶节点表示的CU的视频数据(诸如预测及变换数据)。
一般来说,图3B的CTU 132可与定义对应于在第一及第二级别处的QTBT结构130的节点的块的大小的参数相关联。这些参数可包含CTU大小(表示样本中的CTU 132的大小)、最小四分树大小(MinQTSize,表示最小允许四分树叶节点大小)、最大二元树大小(MaxBTSize,表示最大允许二元树根节点大小)、最大二元树深度(MaxBTDepth,表示最大允许二元树深度),及最小二元树大小(MinBTSize,表示最小允许二元树叶节点大小)。
对应于CTU的QTBT结构的根节点可具有在QTBT结构的第一级别处的四个子节点,所述节点中的每一者可根据四分树分割来分割。即,第一级别的节点为叶节点(不具有子节点)或具有四个子节点。QTBT结构130的实例表示诸如包含具有用于分枝的实线的父节点及子节点的节点。如果第一级别的节点不大于最大允许二元树根节点大小(MaxBTSize),那么其可通过相应二元树进一步分割。一个节点的二元树分裂可重复,直到由分裂产生的节点达到最小允许二元树叶节点大小(MinBTSize),或最大允许二元树深度(MaxBTDepth)为止。QTBT结构130的实例表示诸如具有用于分枝的虚线的节点。二元树叶节点被称为译码单元(CU),其用于预测(例如图片内或图片间预测)及变换而不需任何进一步分割。如上文所论述,CU也可被称作“视频块”或“块”。
在QTBT分割结构的一个实例中,CTU大小经设置为128×128(明度样本及两个对应64×64色度样本),MinQTSize经设置为16×16,MaxBTSize经设置为64×64,MinBTSize(对于宽度及高度两者)经设置为4,且MaxBTDepth经设置为4。四分树分割首先应用于CTU以产生四分树叶节点。四分树叶节点可具有16×16(即,MinQTSize)到128×128(即,CTU大小)的大小。如果叶四分树节点为128×128,那么所述节点不会由二元树进一步分裂,这是由于大小超过MaxBTSize(即,在此实例中为64×64)。否则,叶四分树节点将通过二元树进一步分割。因此,四分树叶节点也为二元树的根节点并具有为0的二元树深度。当二元树深度达到MaxBTDepth(在此实例中为4)时,不准许进一步分裂。二元树节点具有等于MinBTSize(在此实例中为4)的宽度意指不准许进一步水平分裂。类似地,二元树节点具有等于MinBTSize的高度意指对于所述二元树节点不准许进一步竖直分裂。如上文所提及,二元树的叶节点被称作CU,且根据预测及变换来进一步处理而无需进一步分割。
在H.265/HEVC中,对于每一块,运动信息集合可为可用的。运动信息集合含有用于前向及后向预测方向的运动信息。此处,前向及后向预测为双向预测模式的两个预测方向。术语“前向”及“后向”未必具有几何含义,而是相反对应于两个参考图片列表:当前图片的参考图片列表0(RefPicList0)及参考图片列表1(RefPicList1)。当仅一个参考图片列表可供用于图片或切片时,仅RefPicList0可为可用的,且切片的每一块的运动信息始终为前向的。
对于每一预测方向,运动信息必须含有参考索引及运动向量。在一些情况下,为简单起见,可以假设运动向量自身具有相关联参考索引的方式对所述运动向量进行参考。参考索引用于识别当前参考图片列表(RefPicList0或RefPicList1)中的参考图片。运动向量具有水平分量及竖直分量。
视频译码标准中广泛使用图片次序计数(POC)以识别图片的显示次序。虽然存在一个经译码视频序列内的两个图片可具有相同POC值的情况,但经译码视频序列内通常不发生此类情况。当位流中存在多个经译码视频序列时,就解码次序来说,具有同一POC值的图片可更接近于彼此。图片的POC值通常用于参考图片列表构建、如HEVC中的参考图片集的导出及运动向量缩放。
视频译码器可对于当前块(例如,CU或PU)执行单向帧间预测或双向帧间预测。当对于当前块执行单向帧间预测时,视频译码器使用运动向量来确定参考图片中的位置。视频译码器接着可产生当前块的预测性块。预测性块可包含参考图片中由运动向量指示的位置处的样本的块,或从参考图片的样本内插的样本的块。当执行双向帧间预测时,视频译码器可用第二参考图片及第二运动向量执行这个过程,由此产生当前块的第二预测性块。在双向帧间预测中,由单一参考图片产生的预测性块在本文中可被称作预先预测性块。另外,在双向帧间预测中,视频译码器可基于两个预先块产生当前块的最终预测性块。在一些实例中,视频译码器可产生最终预测性块,使得最终预测性块中的每一样本为预先预测性块中的对应样本的加权平均值。
为支持图片中的帧间预测,视频译码器产生图片的两个参考图片列表。图片的参考图片列表包含可用于执行图片中的块的帧间预测的参考图片。两个参考图片列表通常被称作列表0及列表1。在一个实例中,图片的列表0中的每一参考图片按输出次序在图片之前出现。在此实例中,图片的列表1中的每一参考图片按输出次序在图片之后出现。因此,列表0中的参考图片的使用可被视为第一帧间预测方向且列表1中的参考图片的使用可被视为第二帧间预测方向。视频编码器20及视频解码器30利用参考图片按同一次序产生图片的列表0。同样,视频编码器20及视频解码器30利用参考图片按同一次序产生图片的列表1。因此,视频编码器20可通过用信号表示指示参考图片在参考图片列表中的位置的参考索引向视频解码器30指示参考图片列表的参考图片。
HEVC标准提供多个帧间预测模式,包含合并模式及先进运动向量预测(AMVP)模式。换句话说,在HEVC标准中,对于预测单元(PU)存在两个帧间预测模式,分别命名为合并(跳过被视为合并的特殊情况)及先进运动向量预测(AMVP)模式。在AMVP或合并模式中,针对多个运动向量预测子维持运动向量(MV)候选列表。当前PU的运动向量以及合并模式中的参考索引是通过从MV候选列表获取一个候选而产生。MV候选列表含有用于合并模式的至多5个候选及用于AMVP模式的仅两个候选。合并候选可含有一组运动信息,例如,对应于两个参考图片列表(列表0及列表1)的运动向量及参考索引。如果由合并索引来识别合并候选,那么参考图片用于当前块的预测,以及确定相关联的运动向量。然而,在针对自列表0或列表1的每一潜在预测方向的AMVP模式下,需要明确地将参考索引连同MVP索引用信号表示到MV候选列表,因为AMVP候选仅含有运动向量。在AMVP模式中,可进一步改进经预测运动向量。如可从上文看出,合并候选对应于运动信息的整个集合,而AMVP候选仅含有用于特定预测方向的一个运动向量及参考索引。以类似方式从相同空间及时间相邻块导出用于两个模式的候选。
更具体地说,在合并模式下,视频编码器20及视频解码器30产生匹配用于PU的合并运动向量(MV)候选列表。用于PU的合并MV候选列表包含一或多个合并候选,其也可被称作运动向量预测子(MVP)。在HEVC中,合并MV候选列表含有至多5个合并候选。合并MV候选列表中的每一相应合并候选指定一或多个运动向量及一或多个参考索引。举例来说,合并候选可指定列表0运动向量及/或列表1运动向量,且可指定列表0参考索引及/或列表1参考索引。列表0运动向量为指示列表0中的参考图片中的位置的运动向量。列表1运动向量为指示列表1中的参考图片中的位置的运动向量。视频编码器20可用信号表示指示用于PU的所选择合并候选在合并MV候选列表中的位置的合并索引。视频解码器30可使用合并索引以识别所选择合并候选。视频解码器30接着可使用所选择合并候选的运动向量及参考索引作为PU的运动向量及参考索引。
在AMVP模式中,视频编码器20产生用于PU的列表0AMVP候选列表及/或列表1AMVP候选列表,其中的任一者可被称为AMVP候选列表。视频解码器30产生匹配由视频编码器20产生的AMVP候选列表的AMVP候选列表。在HEVC中,AMVP候选列表含有两个AMVP候选。列表0AMVP候选列表中的每一相应AMVP候选指定相应列表0运动向量。列表1AMVP候选列表中的每一相应AMVP候选指定相应列表1运动向量。在AMVP模式中,如果PU是从列表0单向帧间预测或经双向帧间预测,那么视频编码器20用信号表示列表0MVP索引、列表0参考索引,及列表0运动向量差(MVD)。列表0MVP索引指定列表0AMVP候选列表中的所选择AMVP候选的位置。列表0参考索引指定所选择列表0参考图片的位置。列表0MVD指定PU的列表0运动向量与由列表0AMVP候选列表中的所选择AMVP候选指定的列表0运动向量之间的差。因此,视频解码器30可使用列表0MVP索引及列表0MVD以确定PU的列表0运动向量。视频解码器30接着可确定PU的预先或最终预测性块,包含对应于通过PU的列表0运动向量识别的所选择的列表0参考图片中的位置的样本。视频编码器20可用信号表示用于列表1的类似语法元素且视频解码器30可以类似方式使用用于列表1的语法元素。
如上文可见,合并候选对应于运动信息的整个集合,而AMVP候选仅含有用于特定预测方向的一个运动向量。合并模式及AMVP模式两者的候选可类似地从相同空间及时间相邻块导出。
图3A及图3B展示可用以导出空间MV候选的相邻块的实例。尽管从块产生候选的方法对于合并及AMVP模式来说不同,但对于特定PU(PU0),空间MV候选是从图3A及图3B中展示的相邻块所导出。图3A说明用于合并模式的空间相邻MV候选。在合并模式中,至多四个空间MV候选可以图3A中以数字展示的次序导出,且次序如下:左(0)、上(1)、右上(2)、左下(3)及左上(4)。
图3B说明用于AMVP模式的空间相邻MV候选。在AMVP模式中,相邻块分成两个群组:由块0及1组成的左群组,及由块2、3及4组成的上群组,如图3B中所示。对于每一群组,参考与由用信号表示的参考索引指示的相同参考图片的相邻块中的潜在候选具有待选择的最高优先级以形成群组的最终候选。有可能所有相邻块均不含有指向相同参考图片的运动向量。因此,如果无法发现此类候选,那么将缩放第一可用候选以形成最终候选,因此可补偿时间距离差。举例来说,作为产生列表0AMVP候选列表的部分,视频译码器检查块0是否是从列表0预测,且若如此,检查块0的列表0参考图片是否与当前PU的列表0参考图片相同。如果块0是从列表0预测且块0的列表0参考图片与当前PU的列表0参考图片相同,那么视频译码器包含列表0AMVP候选列表中的块0的列表0运动向量。否则,视频译码器检查块0是否是从列表1预测,且若如此,则检查块0的列表1参考图片是否与当前PU的列表0参考图片相同。如果块0是从列表0预测且块0的列表1参考图片与当前PU的列表0参考图片相同,那么视频译码器将块0的列表1运动向量包含于列表0AMVP候选列表中。如果块0的列表1参考图片并不与当前PU的列表0参考图片相同,那么视频译码器对块1而非块0重复此过程。
然而,如果块1不是从列表1预测或块1的列表1参考图片并不与当前PU的列表0参考图片相同,那么视频译码器确定块0是否是从列表0预测,且若如此,则确定块0的列表0参考图片及当前PU的列表0参考图片是都为长期参考图片还是都为短期参考图片。如果块0的列表0参考图片及当前PU的列表0参考图片都为长期参考图片或块0的列表0参考图片及当前PU的列表0参考图片都为短期参考图片,那么视频译码器可基于块0的列表0参考图片与当前PU的列表0参考图片之间的时间差缩放块0的列表0运动向量。视频译码器将经缩放的列表0运动向量包含到列表0AMVP候选列表中。如果块0的列表0参考图片为长期参考图片且当前PU的列表0参考图片为短期参考图片,或为反过来的情况,那么视频译码器确定块0是否是从列表1预测,且若如此,则确定块0的列表1参考图片及当前PU的列表0参考图片是都为长期参考图片还是都为短期参考图片。如果块0的列表1参考图片及当前PU的列表0参考图片都为长期参考图片或块0的列表1参考图片及当前PU的列表0参考图片都为短期参考图片,那么视频译码器可基于块0的列表1参考图片与当前PU的列表0参考图片之间的时间差缩放块0的列表1运动向量。视频译码器将经缩放的列表0运动向量包含到列表0AMVP候选列表中。如果块0的列表1参考图片为长期参考图片且当前PU的列表0参考图片为短期参考图片,或为反过来的情况,那么视频译码器对块1而非块0重复此过程。
视频译码器可对于块2、3及4执行类似过程以使第二候选包含在当前PU的列表0AMVP候选列表中。另外,视频译码器可重复此整个过程(调换对于列表0与列表1的参考,及调换对于列表1与列表0的参考),以产生当前PU的列表1AMVP候选列表。
因此,在AVMP模式中,如图3B中所示,相邻块被分成两个群组:由块0及1组成的左群组及由块2、3及4组成的上群组。对于每一群组,参考与由用信号表示的参考索引指示的相同参考图片的相邻块中的潜在候选具有待选择的最高优先级以形成群组的最终候选。有可能所有相邻块都不含有指向相同参考图片的运动向量。因此,如果不能发现这个候选,那么可缩放第一可用候选以形成最终候选;因此,可补偿时间距离差。
视频译码器可将时间运动向量预测子(TMVP)候选(如果启用及可用)包含到合并MV候选列表(在空间运动向量候选之后)中或AMVP候选列表中。举例来说,在AMVP的情况下,如果空间相邻块不可用(例如,因为空间相邻块在图片、切片或图片块边界外部,因为空间相邻块经帧内预测,等),那么视频译码器可使TMVP候选包含在AMVP候选列表中。在合并模式中,TMVP候选可指定时间相邻块的列表0及/或列表1运动向量。用于合并模式中的TMVP候选的参考索引始终设置成0。在AMVP模式中,TMVP候选指定时间相邻块的列表0运动向量或时间相邻块的列表1运动向量。时间相邻块为参考图片中的块。对于合并模式及AMVP模式两者,用于TMVP候选的运动向量导出的过程可为相同的。
如上文所提及,视频译码器可缩放运动向量。当缩放运动向量时,假设运动向量的值与呈现时间中的图片的距离成比例。运动向量与两个图片相关联:参考图片及含有运动向量的图片(即,内含图片)。当运动向量用以预测其它运动向量时,内含图片与参考图片的距离是基于参考图片及内含图片的图片次序计数(POC)值来计算的。
为了预测运动向量,可基于含有参考图片的经预测块的图片的POC值计算新距离(基于POC)。例如基于此两个POC值缩放运动向量。对于空间相邻候选,用于两个运动向量的内含图片相同,而参考图片不同。在HEVC中,运动向量缩放适用于空间及时间相邻候选的TMVP及AMVP两者。
此外,在一些实施中,如果MV候选列表(例如,合并MV候选列表或AMVP候选列表)不完整(例如包含少于预定数目的候选),那么视频译码器可在MV候选列表末尾处产生及插入人工运动向量候选,直到MV候选列表具有所需数目的候选。在合并模式中,存在两种类型的人工MV候选:仅针对B切片导出的组合候选,及零候选者。组合候选指定来自一个合并候选的列表0运动向量与不同合并候选的列表1运动向量的组合。仅当第一类型(即,组合候选)不提供足够人工候选时,零候选者才用于运动向量预测。零候选为指定MV的候选,所述MV的水平及水平分量各自等于0。
对于已在候选列表中且具有必要运动信息的每一对候选,双向合并运动向量候选通过参考列表0中的图片的第一候选的运动向量与参考列表1中的图片的第二候选的运动向量的组合导出。
另外,视频译码器可应用修剪过程用于候选插入。来自不同块的候选可恰巧相同,这可降低合并/AMVP候选列表的效率。应用修剪过程以解决这个问题。所述修剪过程比较当前候选列表中的一个候选与其它候选,以在一定程度上避免插入相同候选。为减小复杂度,应用仅仅有限数目个修剪过程,而非比较每一潜在候选与所有其它现有候选。
H.265/HEVC中的运动补偿用于产生用于当前经帧间译码块的预测子。使用四分之一像素准确度运动向量,且使用用于明度及色度分量的相邻整数像素值来内插分率位置处的像素值。
在许多实例视频编解码器标准中,仅将平移运动模型应用于运动补偿预测(MCP)。然而,在真实世界中,存在许多种类的运动,例如放大/缩小、旋转、透视运动及其它不规则运动。如果利用不规则运动在此类测试序列中仅将平移运动模型应用于MCP,那么其将影响预测准确度且可导致低译码效率。多年来,视频专家尝试设计许多算法来改进MCP以实现较高译码效率。在JEM中,应用仿射变换运动补偿预测以改进译码效率。提出仿射合并及仿射帧间模式来如下处理具有4个参数的仿射移动模型:
Figure BDA0002435359850000191
在方程式(1)中,vx为块内的位置(x,y)的运动向量的水平分量,且vy为块内的位置(x,y)的运动向量的竖直分量。在方程式(1)中,a、b、c、d、e及f为参数。应注意,在仿射运动模型中,块内的不同位置具有不同运动向量。
图4为说明具有四个仿射参数的两点MV仿射模式的实例的概念图。4-参数仿射运动模型可由左上方控制点(V0)的运动向量及右上方控制点(V1)的运动向量表示。图4说明用于当前块300的简化仿射运动模型。如图4中所示,块的仿射运动场由两个控制点运动向量MV0及MV1描述。MV1为当前块300的左上方控制点302的控制点运动向量。MV1为当前块300的右上方控制点304的控制点运动向量。
块的运动向量场(MVF)是通过以下方程式描述:
Figure BDA0002435359850000192
在方程式(2)中,vx为块中的位置(x,y)的运动向量的水平分量;vy为块中的位置(x,y)的运动向量的竖直分量;(v0x,v0y)为左上方拐角控制点(例如,左上方控制点402)的运动向量;(v1x,v1y)为右上方拐角控制点(例如,右上方控制点404)的运动向量;且w为块的宽度。因此,视频译码器可使用方程式(2)基于块的控制点的运动向量来“外推”位置(x,y)的运动向量。在JEM软件的实例中,仅将仿射运动预测应用于正方形块。作为自然扩展,可将仿射运动预测应用于非正方形块。
为进一步简化运动补偿预测,可应用基于块的仿射变换预测。因此,视频译码器可导出块的子块的运动向量,而非导出块中的每一位置的运动向量。在JEM中,子块为4×4块。为导出子块的运动向量,视频译码器可根据方程式(2)计算子块的中心样本的运动向量。视频译码器接着可将所计算运动向量舍入到1/16分率准确度。经舍入的运动向量在本文中可被称作高准确度运动向量。接着,视频译码器可应用运动补偿内插滤波器以利用导出的运动向量产生子块中的每一者的预测(即,预测性块)。
图5说明每一子块的实例仿射运动向量场(MVF)。如图5的实例中所示,当前块400具有左上方控制点402及右上方控制点404。视频译码器可基于左上方控制点402的运动向量406及右上方控制点404的运动向量408计算当前块400的子块的运动向量。图5将子块的运动向量展示为小箭头。
在MCP之后,每一子块的高准确度运动向量经舍入并以与正常运动向量相同的准确度保存。在一些实例中,当所存储运动向量的精度小于高准确度运动向量时,仅仅执行高准确度运动向量的舍入。
在JEM的一个实例中,存在两种仿射运动模式:AF_INTER模式及AF_MERGE模式。在JEM中,AF_INTER模式可应用于宽度及高度均大于8的CU。在位流中在CU级别处用信号表示仿射旗标以指示是否使用AF_INTER模式。在AF_INTER模式中,视频编码器20用信号表示当前块的列表0参考索引及/或列表1参考索引以指示列表0参考图片及/或列表1参考图片。
在AF_INTER模式中,视频编码器20及视频解码器30各自构建当前块的一或多个候选列表(即,仿射MVP集合候选列表)。举例来说,视频编码器20及视频解码器30可各自构建列表0仿射MVP集合候选列表及/或列表1仿射MVP集合候选列表。仿射MVP集合候选列表中的每一者包含仿射MVP集合的相应集合。在4-参数仿射运动模型中,列表0仿射MVP集合候选列表中的仿射MVP集合指定两个列表0运动向量(即,运动向量对)。在4-参数仿射运动模型中,列表1仿射MVP集合候选列表中的仿射MVP集合指定两个列表1运动向量。
最初,视频译码器(例如,视频编码器20或视频解码器30)尝试使用相邻块以类型{(v0,v1)|v0={vA,vB,vc},v1={vD,vE}}的运动向量填充仿射MVP集合候选列表。图6A为说明如以AF_INTER模式使用的当前块500及相邻块的框图。如图6A中所示,V0选自块A、B或C的运动向量。来自相邻块的运动向量是根据参考列表以及相邻块的参考的POC、当前CU的参考的POC及当前CU的POC之间的关系而缩放。举例来说,假设视频译码器选择相邻块(例如,块A、B或C)的列表0运动向量作为V0。在此实例中,相邻块的列表0运动向量指示相邻块的参考图片(即,相邻块的参考)中的位置。此外,在此实例中,视频编码器20可选择列表0参考索引并将其传信,所述列表0参考索引指示当前CU的参考图片(即,当前CU的参考)。如果相邻块的参考图片并不与当前CU的参考图片相同,那么视频译码器可基于参考时间距离与当前时间距离之间的差缩放相邻块的列表0运动向量。参考时间距离为相邻块的参考图片的POC与当前CU的POC之间的时间距离。当前时间距离为当前CU的POC与当前CU的参考图片的POC之间的时间距离。视频译码器可对于列表1运动向量执行类似过程。从相邻块D及E选择v1的方法是类似的。
如果候选列表中的候选的数目小于2,那么候选列表通过通过复制AMVP候选{AMVP0,AMVP0}及{AMVP1,AMVP1}中的每一者而组成的运动向量对填补。换句话说,视频译码器可以上文所描述的方式产生两个AMVP候选。两个AMVP候选表示为AMVP0及AMVP1。视频译码器接着可使将AMVP0指定为第一控制点的运动向量且将AMVP0指定为第二控制点的运动向量的第一仿射运动向量预测子候选包含在图6B的候选列表520中。如果在使第一仿射MVP候选包含于候选列表520中之后候选列表中的候选的数目仍小于2,那么视频译码器将第二仿射MVP候选包含于候选列表520中,其中第二仿射MVP候选将AMVP1指定为第一控制点的运动向量且将AMVP1指定为第二控制点的运动向量。
当候选列表520大于2时,视频译码器首先根据相邻运动向量的一致性(一对候选中的两个运动向量的类似性)对候选列表520中的候选进行分类。视频译码器仅仅保留前两个候选,如图6B中以直线标记“大小=2”所示。视频编码器20可使用速率-失真成本检查以确定哪一运动向量集合候选经选择为当前CU的控制点运动向量预测(CPMVP)。视频编码器20可在位流中用信号表示指示候选列表520中的CPMVP的位置的索引。视频解码器30可从位流获得索引并使用所述索引以确定候选列表620中的候选中的哪一者为CPMVP。在确定当前仿射CU的CPMVP之后,应用仿射运动估计且发现控制点运动向量(CPMV)。视频编码器20在位流中用信号表示CPMV与CPMVP之间的差。换句话说,视频编码器20在位流中用信号表示运动向量差(MVD)。
对于大小等于或大于16×16的每一CU/PU,可如下应用AF_INTER模式。如果当前CU/PU处于AF_INTER模式,那么在位流中用信号表示CU/PU级别中的仿射旗标。使用相邻的有效经重构建块来建置候选列表{(v0,v1)|v0={vA,vB,vc},v1={vD,vE}}。如图6A中所示,v0选自块A、B或C的运动向量。来自相邻块的运动向量是根据参考列表以及相邻块的参考的POC、当前CU/PU的参考的POC及当前CU/PU的POC之间的关系而缩放。从相邻块D及E选择v1的方法是类似的。如果候选项列表的数目小于2,那么AMVP的候选经指配至到v0及v1。当前CU/PU的速率-失真优化(RDO)成本用于确定哪一(v0,v1)经选择为当前CU/PU的控制点运动向量预测(CPMVP)。用以指示候选列表中的CPMVP的位置的索引是在位流用信号表示。在确定当前仿射CU/PU的CPMVP之后,应用仿射运动估计且发现CPMV。接着,在位流中对CPMV及CPMVP的差进行译码。应用上文所提及的仿射运动补偿预测以产生当前CU/PU的残余。最后,作为传统过程,将当前CU/PU的残余变换、量化且译码成位流。
图7A为展示用于基于JEM的编码器的实例运动估计(ME)算法过程的流程图。仿射ME应用反复策略,如图7B中所示。搜索开始于种子(MV0,MV1)。在每一重复下,导出经改进的(MV0,MV1)。在MaxIteration乘以迭代后,输出具有最小绝对变换失真总和(SATD)成本的最佳(MV0,MV1)作为这个块的仿射运动。
种子(MV0,MV1)找到真实最佳仿射运动至关重要。在仿射ME过程中,将仿射运动的(MVP0,MVP1)的若干集合用作候选。也可将针对非仿射帧间预测通过普通ME发现的MV视为用于仿射帧间预测的候选(MV,MV)。通过仿射运动补偿的SATD成本比较这些候选。将具有最小成本的运动视为种子运动。
在图7B的实例中,视频编码器20将输入种子MV确定为(MV0,MV1)[0],计算cost[0],确定Bestl=0(650)。视频编码器20将i设置为等于零(652)。对于i=0至i+1≥MaxIteration,视频编码器20从(MV0,MV1)[i]导出(MV0,MV1)[i+1](654)。视频编码器20计算cost[i+1]且如果(cost[i+1]小于cost[i]),那么视频编码器20将Bestl设置为等于i+1(656)。如果(MV0,MV1)[i+1]等于(MV0,MV1)[i](658,是),那么视频编码器20输出(MV0,MV1)[Best](660)。换句话说,如果改进过程不会对先前种子MV改进,那么改进过程停止。(MV0,MV1)[Best]可为MV0,MV1)[i+1]或(MV0,MV1)[i]中的任一者。如果(MV0,MV1)[i+1]不等于(MV0,MV1)[i](658,否)且i+1不≥MaxIteration(662,否),那么视频编码器20使I递增(664)且重复步骤654及656直到满足步骤658或662中的一者的条件为止。
在当前CU/PU以AF_MERGE模式应用时,则使第一块以来自有效相邻经重构建块的仿射模式译码。用于候选块的选择次序如图8A中所示是从左侧、上方、右上方、左下方到左上方。图8A展示在以AF_MERGE模式译码当前块700时使用的相邻块。对于相邻块的访视次序(即,选择次序)如图8A中所示是从左侧(A)、上方(B)、右上方(C)、左下方(D)到左上方(E)。举例来说,如果相邻左下方块A是以如图8B中所示的仿射模式译码,那么导出含有块A的CU/PU的左上拐角、右上拐角及左下拐角的运动向量v2、v3及v4。根据v2、v3及v4计算当前CU/PU的左上拐角的运动向量v0。类似地,基于v2、v3及v4计算当前CU/PU的右上方的运动向量v1。在实现当前CU/PU v0及v1的CPMV之后,根据以上方程式(2)中定义的简化仿射运动模型,产生当前CU/PU的MVF。随后,如本发明别处所描述来应用仿射MCP。为识别当前CU/PU是否是用AF_MERGE模式译码,当存在以仿射模式中译码的至少一个相邻块时在位流中用信号表示仿射旗标。如果如图8A中所展示不存在与当前块相邻的仿射块,那么不会在位流编写仿射旗标。
举例来说,在此实例中,对于X=0及/或X=1,视频译码器可外推相邻块B的左上方控制点的列表X运动向量以产生当前块700的左上方控制点的列表X运动向量,使用相邻块B的左上方控制点的列表X参考索引作为当前块700的左上方控制点的列表X参考索引,外推相邻块B的右上方控制点的列表X运动向量以产生当前块700的右上方控制点的列表X运动向量,且使用相邻块B的右上方控制点的列表X参考索引作为当前块700的右上方控制点的列表X参考索引。在此实例中,视频译码器可使用当前块700的控制点的(x,y)位置作为方程式(2)中的x及y,使用上述方程式(2)来外推相邻块B的控制点的运动向量来确定当前块700的控制点的运动向量。
在HEVC中,使用上下文自适应二进制算术译码(CABAC)来将符号转换为二进制化值。这个过程被称作二进制化。二进制化经由非二进制语法元素与一连串位的唯一映射来实现有效二进制算术译码,所述一连串位被称作二进制位(bin)。
在JEM2.0参考软件中,对于仿射合并模式,仅对仿射旗标进行译码,且推断合并索引为呈预定义检查次序A-B-C-D-E的第一可用相邻仿射模型。对于仿射帧间模式,针对每一预测列表对两个MVD语法进行译码,从而指示经导出仿射运动向量与经预测运动向量之间的运动向量差。
在2017年5月4日提交的美国专利申请案15/587,044中,描述可切换的仿射运动预测方案。具有仿射预测的块可自适应性地选择使用四参数仿射模型或六参数仿射模型。具有6个参数的仿射模型可定义为:
Figure BDA0002435359850000231
具有6个参数的仿射模型具有三个控制点。换句话说,具有6个参数的仿射模型是通过如图9中所展示的三个运动向量确定。MV0为左上方拐角的第一控制点运动向量,MV1为块的右上方拐角的第二控制点运动向量,且MV2为块的左下方拐角的第三控制点运动向量,如图9中所示。用三个运动向量建置的仿射模型经计算为:
Figure BDA0002435359850000232
其中w及h分别为块的宽度及高度。
也可使用与如本发明别处描述的导出左上方拐角及右上方拐角的运动向量的仿射-合并类似的方式来导出左上方拐角、右上方拐角及左下方拐角的MVP。
本发明提出用以改进仿射预测的若干技术。可个别地应用以下详细列举的技术。替代地,可一起应用以下技术的任何组合。
根据本发明的第一技术,视频编码器20及/或视频解码器30可经配置以利用不同数目个参数在序列级别、图片级别、切片级别或预定义块的群组(例如CTU)处控制不同类型的仿射预测。举例来说,如以下的两个旗标
Figure BDA0002435359850000233
Figure BDA0002435359850000241
是在切片标头中用信号表示。如果在切片中启用具有四个参数的仿射预测,那么语法元素affine4_enable_flag等于1;否则,在切片中停用具有四个参数的仿射预测。如果在切片中启用具有六个参数的仿射预测,那么语法元素affine6_enable_flag等于1;否则,在切片中停用具有六个参数的仿射预测。
视频编码器20可经配置以在语法参数集的多个级别下用信号表示此类控制旗标。举例来说,在序列级别及切片级别下用信号表示旗标,且将序列级别的旗标用作用于切片级别旗标信令的条件。作为另一实例,视频编码器20可经配置以在图片级别及切片级别下用信号表示旗标,将图片级别的旗标用作用于切片级别旗标信令的条件。
SPS参数集
affine4_sps_enable_flag u(1)
affine6_sps_enable_flag u(1)
切片标头语法
if(affine4_sps_enable_flag)
affine4_slice_enable_flag u(1)
if(affine6_sps_enable_flag)
affine6_slice_enable_flag u(1)
根据本发明的第二技术,视频编码器20可经配置以独立地将语法元素affine4_enable_flag及affine6_enable_flag设置为0或1。在语法元素affine4_enable_flag=1且affine6_enable_flag=1时,启用具有四个参数及六个参数的两种仿射预测。在语法元素affine4_enable_flag=1且affine6_enable_flag=0时,仅启用具有四个参数的仿射预测。在语法元素affine4_enable_flag=0且affine6_enable_flag=1时,仅启用具有六个参数的仿射预测。在语法元素affine4_enable_flag=0且affine6_enable_flag=0时,停用具有四个参数及六个参数的两种仿射预测。在这种情况下,也停用仿射合并模式。
根据本发明的第三技术,视频编码器20可经配置以取决于序列级别、图片级别或切片级别处的仿射控制旗标而对于仿射预测执行块级别信令。举例来说,在语法元素affine4_enable_flag=0且affine6_enable_flag=0时,其指示不会在切片中启用仿射预测,不会在块级别处用信号表示语法元素aff_merge_flag及aff_inter_flag。不会用信号表示指示块级别处的仿射类型(四参数仿射模型或六参数仿射模型)的语法元素aff_type。当语法元素affine4_enable_flag=0且affine6_enable_flag=1或语法元素affine4_enable_flag=1且affine6_enable_flag=0时,其指示在切片中仅使用具有四个参数的仿射预测,或仅使用具有六个参数的仿射预测,在块级别处用信号表示语法元素aff_merge_flag及aff_inter_flag。然而,在这种情况下未用信号表示语法元素aff_type,是因为仅使用一种类型的仿射预测。当语法元素affine4_enable_flag=1且affine6_enable_flag=1时,其指示在切片中使用具有四个参数的仿射预测及具有六个参数的仿射预测两者,在块级别处用信号表示语法元素aff_merge_flag及aff_inter_flag。也在这种情况下用信号表示语法元素aff_type,以指示在这个块中使用哪一类仿射预测。下表展示块级别处的逻辑。
Figure BDA0002435359850000251
根据本发明的第四技术,视频编码器20及视频解码器30可经配置以决定是否基于此前经译码图片使用具有X个参数的仿射预测。可在编码器或解码器处作出此决策。如果在视频编码器20处作出所述决策,那么语法元素affineX_enable_flag可从视频编码器20用信号表示到视频解码器30。举例来说,X可为4或6。
根据本发明的第五技术,视频编码器20及视频解码器30可经配置以基于当前图片的同一时间层中的先前经译码图片决定是否使用具有X个参数的仿射预测。先前经译码/解码的这些指定的图片被称作当前图片或切片的“同一类别的图片”。
根据本发明的第六技术,视频编码器20及视频解码器30可经配置以基于具有相同POC%M值的先前经译码图片确定是否使用具有X个参数的仿射预测,其中%指示模数运算子。POC是图片的图片次序计数且M为诸如4、8或16的整数。先前经译码/解码的这些指定的图片被称作当前图片或切片的“同一类别的图片”。
根据本发明的第七技术,视频编码器20及视频解码器30可经配置以在当前图片的同一类别中的先前经译码图片中对使用具有X个参数的仿射预测进行译码的块的面积S进行计数。当前图片的同一类别中的先前经译码/解码的经帧间译码的图片中的块(或经帧间译码的块,或经帧间译码而非经跨越译码块)的总面积为P。计算比率S/P。如果S/P<T,那么停用具有X个参数的仿射预测,即,将语法元素affineX_enable_flag设置为0。否则,启用具有X个参数的仿射预测,即,将语法元素affineX_enable_flag设置为1。T为阈值,其可为固定实数或从编码器发送到解码器。
根据本发明的第八技术,视频编码器20及视频解码器30可经配置以在当前图片的同一类别中的先前经译码图片中对使用仿射帧间模式及仿射合并译码的所有块的面积S进行计数。仿射框架模式包含具有任何可能参数的所有仿射帧间模式,例如,包含具有4个参数的仿射帧间模式及具有6个参数的仿射帧间模式。当前图片的同一类别中的此前经译码/解码的经帧间译码图片中的块的总面积为P。计算比率S/P。如果S/P<T,那么停用具有任何X个参数的仿射,即,对于所有X,将语法元素affineX_enable_flag设置为0,例如将语法元素affine4_enable_flag及affine6_enable_flag设置至0。
根据本发明的第九技术,视频编码器20及视频解码器30可经配置以在对第一经帧间译码图片进行译码之前将P及S初始化为0并从第一图片对其进行计数。在对图片群组进行译码/解码之后将P及S重初始化为0,且再次从下一编码/解码图片对其进行计数。举例来说,在对阶层B结构中的图片群组(GOP)进行译码/解码之后将P及S重初始化为0,且再次从下一编码/解码图片对其进行计数。在另一实例中,在对各M个图片(诸如,16个图片、32个图片等)进行译码/解码之后将P及S重初始化为0,且再次从下一编码/解码图片对其进行计数。
根据本发明的第十技术,视频编码器20及视频解码器30可经配置以始终利用如方程式(4)中所例示的具有6个参数的仿射模型的运动导出方法执行运动补偿(MC)过程。如果利用具有4个参数的仿射模型对当前块进行译码,那么首先根据其中x=0且y=h的方程式(2)从MV0及MV1导出MV2。随后,利用具有6个参数的仿射模型的运动导出方法,利用第一步骤中的MV0、MV1及经导出MV2进行运动补偿。
根据本发明的第十一技术,视频编码器20及视频解码器30可经配置以执行ME以首先用于具有4个参数的仿射预测,接着用于具有6个参数的ME仿射预测。用于具有4个参数的仿射预测的ME的输出(MV0,MV1)是用以产生用于具有6个参数的仿射预测的ME的种子运动。举例来说,MV2是根据其中x=0且y=h的方程式(2)自MV0及MV1导出。随后,将(MV0,MV1,MV2)视为用于具有6个参数的仿射预测的ME的一种候选种子运动。将其与其它候选比较以产生最佳种子运动。
根据本发明的第十二技术,视频编码器20及视频解码器30可经配置以执行ME以首先用于具有6个参数的仿射预测,接着用于具有4个参数的ME仿射预测。用于具有4个参数的仿射预测的ME的输出(MV0,MV1,MV2)是用以产生用于具有6个参数的仿射预测的ME的种子运动。举例来说,将(MV0,MV1)视为用于具有4个参数的仿射预测的ME的一种候选种子运动。将其与其它候选比较以产生最佳种子运动。在另一实例中,如果MV2等于根据其中x=0且y=h的方程式(2)从MV0及MV1导出的运动,那么跳过具有4个参数的ME仿射预测。可用具有4个参数的仿射预测对当前块进行译码,得到运动(MV0,MV1)。
根据本发明的第十三技术,视频编码器20及视频解码器30可经配置以针对当前块从父块继承用于仿射预测的ME的运动种子。图10A展示具有4个参数的仿射ME的实例。在对大型块进行译码后,存储所得仿射运动(MV0,MV1)。当对大型块内部的小型块进行译码时,使用方程式(2)从MV0及MV1导出(MV0',MV1')。将(MV0',MV1')用作用于具有4个参数的仿射预测的ME的候选种子。图10B展示具有6个参数的仿射ME的实例。在对较大块进行译码后,存储所得仿射运动(MV0,MV1,MV2)。当对大型块内部的小型块进行译码时,使用方程式(4)从MV0、MV1及MV2导出(MV0',MV1',MV2')。将(MV0',MV1',MV2')用作用于具有6个参数的仿射预测的ME的候选种子。
根据本发明的第十四技术,视频编码器20及视频解码器30可经配置以使得不允许MV0等于用于具有4个参数的仿射预测的MV1。在一个实例中,如果MV1x==MV0x,那么MV1y可不等于MV0y。在另一实例中,不允许控制点的运动向量太接近彼此。在一个实例中,如果abs(MV0x-MV1x)及abs(MV0y-MV1y)可不小于给定阈值。
根据本发明的第十五技术,视频编码器20可经配置以取决于CPMVP是否接近于彼此而有条件地用信号表示语法元素aff_inter_flag。如果CPMVP接近于彼此,例如,绝对差总和小于给定阈值,那么语法元素aff_inter_flag未用信号表示且导出为0。
根据本发明的第十六技术,如果语法元素affine4_enable_flag为1,那么视频编码器20可经配置以基于从给定准则计算的成本来自适应地选择两个控制点,且将使成本将到最低的两个点(例如,选自左上方、右上方及左下方)用作两个控制点,并将相应地取决于选择哪两个控制点来适应(2)中所描述的运动向量导出。所述准则可包含运动向量差、经重构建的值差异。
图11为说明可实施本发明的技术的实例视频编码器20的框图。出于解释的目的而提供图11,且不应将所述图视为对如本发明中广泛例示及描述的技术的限制。本发明的技术可适用于各种译码标准或方法。
在图11的实例中,视频编码器20包含预测处理单元1200、视频数据存储器1201、残余产生单元1202、变换处理单元1204、量化单元1206、反量化单元1208、反变换处理单元1210、重构建单元1212、滤波器单元1214、经解码图片缓冲器1216及熵编码单元1218。预测处理单元1200包含帧间预测处理单元1220及帧内预测处理单元1222。帧间预测处理单元1220可包含运动估计单元及运动补偿单元(图中未展示)。
视频数据存储器1201可经配置以存储待由视频编码器20的组件编码的视频数据。可例如从视频源18获得存储于视频数据存储器1201中的视频数据。经解码图片缓冲器1216可为参考图片存储器,其存储参考视频数据以供视频编码器20在例如以帧内或帧间译码模式编码视频数据时使用。视频数据存储器1201及经解码图片缓冲器1216可由多种存储器装置中的任一者形成,诸如动态随机存取存储器(DRAM),包含同步DRAM(SDRAM);磁阻式RAM(MRAM);电阻式RAM(RRAM)或其它类型的存储器装置。可由同一存储器装置或单独存储器装置提供视频数据存储器1201及经解码图片缓冲器1216。在各种实例中,视频数据存储器1201可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。视频数据存储器1201可与图1的存储媒体19相同或为其一部分。
视频编码器20接收视频数据。视频编码器20可对视频数据的图片的切片中的每一CTU进行编码。所述CTU中的每一者可与图片的相等大小的明度译码树型块(CTB)及对应CTB相关联。作为编码CTU的部分,预测处理单元1200可执行分割以将CTU的CTB划分成逐渐较小的块。所述较小块可为CU的译码块。举例来说,预测处理单元1200可根据树状结构分割与CTU相关联的CTB。
视频编码器20可对CTU的CU进行编码以产生所述CU的经编码的表示(即,经译码的CU)。作为编码CU的部分,预测处理单元1200可在CU的一或多个PU当中分割与CU相关联的译码块。因此,每一PU可与明度预测块及对应的色度预测块相关联。视频编码器20及视频解码器30可支持具有各种大小的PU。如上文所指示,CU的大小可指CU的明度译码块的大小,且PU的大小可指PU的明度预测块的大小。假设特定CU的大小为2N×2N,那么视频编码器20及视频解码器30可支持用于帧内预测的2N×2N或N×N的PU大小,及用于帧间预测的2N×2N、2N×N、N×2N、N×N或类似大小的对称PU大小。视频编码器20及视频解码器30也可支持用于帧间预测的2N×nU、2N×nD、nL×2N及nR×2N的PU大小的非对称分割。
帧间预测处理单元1220可产生用于PU的预测性数据。作为产生用于PU的预测性数据的部分,帧间预测处理单元1220对PU执行帧间预测。用于PU的预测性数据可包含PU的预测性块及用于PU的运动信息。取决于PU是在I切片中、P切片中还是B切片中,帧间预测处理单元1220可针对CU的PU执行不同操作。在I切片中,所有PU经帧内预测。因此,如果PU在I切片中,那么帧间预测处理单元1220不会对PU执行帧间预测。因此,对于以I模式编码的块,经预测的块是使用空间预测从相同帧内的先前经编码的相邻块而形成。如果PU在P切片中,那么帧间预测处理单元1220可使用单向帧间预测来产生PU的预测性块。如果PU在B切片中,那么帧间预测处理单元1220可使用单向或双向帧间预测以产生PU的预测性块。帧间预测处理单元1220可应用如在本发明中别处所描述的用于仿射运动模型的技术。
帧内预测处理单元1222可通过对PU执行帧内预测而产生用于PU的预测性数据。用于PU的预测性数据可包含PU的预测性块及各种语法元素。帧内预测处理单元1222可对I切片、P切片及B切片中的PU执行帧内预测。
为对PU执行帧内预测,帧内预测处理单元1222可使用多个帧内预测模式来产生用于PU的预测性数据的多个集合。帧内预测处理单元1222可使用来自相邻PU的样本块的样本以产生PU的预测性块。对于PU、CU及CTU,假设从左到右、自上而下的编码次序,那么所述相邻PU可在PU上方、右上方、左上方或左边。帧内预测处理单元1222可使用各种数目的帧内预测模式,例如,33个定向帧内预测模式。在一些实例中,帧内预测模式的数目可取决于与PU相关联的区域的大小。
预测处理单元1200可从由帧间预测处理单元1220针对PU产生的预测性数据或由帧内预测处理单元1222针对PU产生的预测性数据中选择用于CU的PU的预测性数据。在一些实例中,预测处理单元1200基于预测性数据的集合的速率/失真量度而选择用于CU的PU的预测性数据。所选择预测性数据的预测性块在本文中可被称作所选择预测性块。
残余产生单元1202可基于CU的译码块(例如,明度、Cb及Cr译码块)及CU的PU的所选择预测性块(例如,预测性明度、Cb及Cr块)而产生CU的残余块(例如,明度、Cb及Cr残余块)。举例来说,残余产生单元1202可产生CU的残余块,使得残余块中的每一样本的值等于CU的译码块中的样本与CU的PU的对应所选择预测性样本块中的对应样本之间的差。
变换处理单元1204可执行将CU的残余块分割成CU的TU的变换块。举例来说,变换处理单元1204可执行四分树分割以将CU的残余块分割成CU的TU的变换块。因此,TU可与明度变换块及两个色度变换块相关联。CU的TU的明度变换块及色度变换块的大小及位置可基于或可不基于CU的PU的预测块的大小及位置。被称为“残余四分树”(RQT)的四分树结构可包含与区域中的每一者相关联的节点。CU的TU可对应于RQT的叶节点。
变换处理单元1204可通过将一或多个变换应用于TU的变换块而产生CU的每一TU的变换系数块。变换处理单元1204可将各种变换应用于与TU相关联的变换块。举例来说,变换处理单元1204可将离散余弦变换(DCT)、定向变换或概念上类似的变换应用于变换块。在一些实例中,变换处理单元1204不会将变换应用于变换块。在这些实例中,变换块可被视为变换系数块。
量化单元1206可量化系数块中的变换系数。量化过程可减少与所述变换系数中的一些或全部相关联的位深度。举例来说,n位变换系数可在量化期间被舍入到m位变换系数,其中n大于m。量化单位1206可基于与CU相关联的量化参数(QP)值量化与CU的TU相关联的系数块。视频编码器20可通过调整与CU相关联的QP值来调整应用于与CU相关联的系数块的量化程度。量化可引入信息的损失。因此,经量化变换系数可具有比最初变换系数低的精度。
反量化单元1208及反变换处理单元1210可分别将反量化及反变换应用于系数块,以从系数块重构建残余块。重构建单元1212可将经重构建的残余块添加到来自由预测处理单元1200产生的一或多个预测性块的对应样本,以产生与TU相关联的经重构建变换块。通过以此方式重构建CU的各TU的变换块,视频编码器20可重构建CU的译码块。
滤波器单元1214可执行一或多个解块操作以减小与CU相关联的译码块中的块伪影。在滤波器单元1214对经重构建的译码块执行一或多个解块操作之后,经解码图片缓冲器1216可存储经重构建的译码块。帧间预测处理单元1220可使用含有经重构建的译码块的参考图片来对其它图片的PU执行帧间预测。另外,帧内预测处理单元1222可使用经解码图片缓冲器1216中的经重构建译码块,以对处于与CU相同的图片中的其它PU执行帧内预测。
熵编码单元1218可从视频编码器20的其它功能组件接收数据。举例来说,熵编码单元1218可从量化单元1206接收系数块,且可从预测处理单元1200接收语法元素。熵编码单元1218可对数据执行一或多个熵编码操作,以产生经熵编码的数据。举例来说,熵编码单元1218可对数据执行CABAC操作、上下文自适应可变长度译码(CAVLC)操作、可变至可变(V2V)长度译码操作、基于语法的上下文自适应二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作、指数哥伦布编码操作或另一类型的熵编码操作。视频编码器20可输出包含由熵编码单元1218产生的经熵编码的数据的位流。举例来说,位流可包含表示用于CU的变换系数的值的数据。
以此方式,视频编码器20表示装置的实例,所述装置经配置以编码视频数据且包含:存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以使第一语法元素或第二语法元素中的至少一者包含于位流中的语法结构中,所述位流包含视频数据的经编码表示。语法结构可为SPS、PPS、切片标头或CTU中的一者。第一语法元素可指示是否针对对应于语法结构的块启用4-参数仿射预测,且第二语法元素可指示是否针对对应于语法结构的块启用6-参数仿射预测。所述一或多个处理单元可经配置以独立地设置第一语法元素及第二语法元素。基于针对视频数据的当前块启用4-参数仿射预测或针对当前块启用6-参数仿射预测,所述一或多个处理单元可经配置以使用仿射预测来产生当前块的预测性块且使用预测性块及当前块产生残余数据。
所述一或多个处理单元可经配置以基于第一语法元素指示针对块启用4-参数仿射预测或第二语法元素指示针对块启用6-参数仿射预测而使第三语法元素、第四语法元素及第五语法元素中的至少一者包含于位流中。第三语法元素可指示仿射合并模式是否用于当前块,且第四语法元素可指示仿射帧间模式是否用于当前块。第五语法元素可指示是用4-参数仿射预测还是6-参数仿射预测来编码当前块。
所述一或多个处理单元可经配置以基于第一语法元素指示针对块启用4-参数仿射预测或第二语法元素指示针对块启用6-参数仿射预测而非这两者来使第三语法元素及第四语法元素中的至少一者而非第五语法元素包含于位流中。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以:基于视频数据的一或多个先前经解码图片,确定是否针对视频数据的当前图片中的块启用使用特定数目的参数的仿射预测模式;基于针对当前图片的块启用仿射预测,使用仿射预测来产生用于当前图片的当前块的预测性块;及使用预测性块及当前块产生残余数据。
所述一或多个先前经解码图片可与当前图片处于相同时间层中。所述一或多个先前经解码图片中的每一者可具有相同POC模数M值,其中M为整数。为确定是否针对当前图片中的块启用仿射预测模式,所述一或多个处理单元可经配置以基于使用仿射预测模式编码的一或多个先前经解码图片中的块的面积来确定是否针对当前图片的块启用仿射预测模式。用仿射预测模式编码的一或多个先前经解码图片中的块的面积可包含用呈仿射帧间模式及仿射合并模式的仿射预测模式编码的先前经解码图片中的块的面积。所述一或多个处理单元可经配置以响应于到达GOP的末端而重设指示块面积的变量。
视频编码器20也表示装置的实例,所述装置经配置以编码视频数据且包含:存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以:基于视频数据的当前块的左上方控制点的运动向量及当前块的右上方控制点的运动向量,导出当前块的左下方控制点的运动向量;使用当前块的左上方、右上方及左下方控制点的运动向量来产生预测性块;及基于预测性块及当前块产生残余数据。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以使第一语法元素或第二语法元素中的至少一者包含于位流中的语法结构中,所述位流包含视频数据的经编码表示。第一语法元素可指示是否针对对应于语法结构的块启用4-参数仿射预测,且第二语法元素可指示是否针对对应于语法结构的块启用6-参数仿射预测。基于针对视频数据的当前块启用4-参数仿射预测或针对当前块启用6-参数仿射预测,所述一或多个处理单元可经配置以使用仿射预测来产生当前块的预测性块且使用预测性块及当前块产生残余数据。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以通过对于当前块的4-参数仿射预测执行运动估计而确定视频数据的当前图片的当前块的左上方控制点的第一运动向量及当前块的右上方控制点的第二运动向量;基于第一运动向量及第二运动向量,导出当前块的左下方控制点的第三运动向量;使用第一运动向量、第二运动向量及第三运动向量作为种子运动候选以用于对于当前块的6-参数仿射预测执行运动估计;使用6-参数仿射仿射来产生预测性块;及基于预测性块及当前块产生残余数据。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:通过对于视频数据的当前图片的当前块的6-参数仿射预测执行运动估计而确定第一运动向量、第二运动向量及第三运动向量,所述第一运动向量为用于当前块的左上方控制点的运动向量,所述第二运动向量为用于当前块的右上方控制点的运动向量,且第三运动向量为用于当前块的左下方控制点的运动向量;使用第一运动向量及第二运动向量作为种子运动候选以用于对于当前块的4-参数仿射预测执行运动估计;使用4-参数仿射仿射来产生预测性块;及基于预测性块及当前块产生残余数据。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:使用视频数据的当前块的父块的控制点的运动向量作为候选种子运动以用于对于视频数据的当前图片的当前块的仿射预测执行运动估计;使用所述仿射预测产生预测性块;及基于预测性块及当前块产生残余数据。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:响应于确定视频数据的当前图片的经仿射译码块的第一控制点的运动向量中的至少一者等于块的第二控制点的运动向量或第一控制点及第二控制点的运动向量之间的差小于预定阈值,确定位流不符合视频译码标准。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:确定视频数据的当前块的控制点运动向量预测子之间的差的度量大于预定阈值;基于所述度量大于预定阈值,使指示是否使用仿射帧间模式用信号表示当前块的控制点的运动向量的语法元素包含于包含视频数据的经编码表示的位流中;及基于当前块的控制点的运动向量是使用仿射帧间模式而用信号表示,在位流中使用仿射帧间模式用信号表示当前块的控制点的运动向量。
视频编码器20也表示经配置以编码视频数据的装置的实例,所述装置包含:存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:基于从预定准则计算的成本,从当前块的左上方控制点、当前块的右上方控制点及当前块的左下方控制点当中自适应地选择两个控制点,所述当前块处于视频数据的当前图片中;使用4-参数仿射运动模型中的两个所选择的控制点的运动向量以产生用于当前块的预测性块;及基于预测性块及当前块产生残余数据。
图12为说明经配置以实施本发明的技术的实例视频解码器30的框图。出于解释的目的而提供图12,且其并不限制如本发明中所广泛例示及描述的技术。出于解释的目的,本发明描述在HEVC译码的上下文中的视频解码器30。然而,本发明的技术可适用于其它译码标准或方法。
在图12的实例中,视频解码器30包含熵解码单元1300、视频数据存储器1301、预测处理单元1302、反量化单元1304、反变换处理单元1306、重构建单元1308、滤波器单元1310及经解码图片缓冲器1312。预测处理单元1302包含运动补偿单元1314及帧内预测处理单元1316。在其它实例中,视频解码器30可包含更多、更少或不同功能组件。
视频数据存储器1301可存储待由视频解码器30的组件解码的经编码视频数据,诸如经编码视频位流。经由视频数据的有线或无线网络通信或通过存取物理数据存储媒体,存储于视频数据存储器1301中的视频数据可例如从计算机可读媒体16(例如,从本地视频源,诸如相机)获得。视频数据存储器1301可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。经解码图片缓冲器1312可为参考图片存储器,其存储参考视频数据以供视频解码器30在例如以帧内或帧间译码模式解码视频数据时使用或以供输出。视频数据存储器1301及经解码图片缓冲器1312可通过多种存储器装置中的任一者形成,诸如DRAM,包含SDRAM、MRAM、RRAM或其它类型的存储器装置。可由同一存储器装置或单独存储器装置提供视频数据存储器1301及经解码图片缓冲器1312。在各种实例中,视频数据存储器1301可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。视频数据存储器1301可与图1的存储媒体28相同或为其一部分。
视频数据存储器1301接收并存储位流的经编码视频数据(例如,NAL单元)。熵解码单元1300可从视频数据存储器1301接收经编码视频数据(例如,NAL单元),且可剖析NAL单元以获得语法元素。熵解码单元1300可对NAL单元中的经熵编码语法元素进行熵解码。预测处理单元1302、反量化单元1304、反变换处理单元1306、重构建单元1308及滤波器单元1310可基于从位流提取的语法元素而产生经解码视频数据。熵解码单元1300可执行通常与熵编码单元1218的过程互逆的过程。
除了获得来自位流的语法元素之外,视频解码器30可对CU执行重构建操作。为对CU执行重构建操作,视频解码器30可对CU的每一TU执行重构建操作。通过对CU的每一TU执行重构建操作,视频解码器30可重构建CU的残余块。
作为对CU的TU执行重构建操作的部分,反量化单元1304可反量化(即,解量化)与TU相关联的变换系数块。在反量化单元1304对系数块进行反量化之后,反变换处理单元1306可将一或多个反变换应用于系数块以便产生与TU相关联的残余块。举例来说,反转变处理单元1306可将反DCT、反整数变换、反Karhunen-Loeve变换(KLT)、反旋转变换、反定向变换或另一反变换应用于系数块。
反量化单元1304可执行本发明的特定技术。举例来说,对于视频数据的图片的CTU的CTB内的多个量化群组的至少一个相应量化群组,反量化单元1304可至少部分地基于在位流中用信号表示的本地量化信息导出用于相应量化群组的相应量化参数。另外,在此实例中,反量化单元1304可基于用于相应量化群组的相应量化参数对CTU的CU的TU的变换块的至少一个变换系数进行反量化。在此实例中,相应量化群组经定义为连续(在译码次序中)CU或译码块的群组,以使得相应量化群组的边界必须为CU或译码块的边界且相应量化群组的大小大于或等于阈值。视频解码器30(例如,反变换处理单元1306、重构建单元1308及滤波器单元1310)可基于变换块的经反量化变换系数重构建CU的译码块。
如果使用帧内预测编码PU,那么帧内预测处理单元1316可执行帧内预测以产生PU的预测性块。帧内预测处理单元1316可使用帧内预测模式来基于样本空间相邻块产生PU的预测性块。帧内预测处理单元1316可基于从位流获得的一或多个语法元素确定用于PU的帧内预测模式。
如果使用帧间预测编码PU,那么运动补偿单元1314可确定PU的运动信息。运动补偿单元1314可基于PU的运动信息而确定一或多个参考块。运动补偿单元1314可基于一或多个参考块产生PU的预测性块(例如,预测性明度、Cb及Cr块)。运动补偿单元1314可应用如在本发明中别处所描述的用于仿射运动模型的技术。
重构建单元1308可使用CU的TU的变换块(例如,明度、Cb及Cr变换块)及CU的PU的预测性块(例如,明度、Cb及Cr块)(即,可适用的帧内预测数据或帧间预测数据)来重构建CU的译码块(例如,明度、Cb及Cr译码块)。举例来说,重构建单元1308可将变换块(例如,明度、Cb及Cr变换块)的样本添加到预测性块(例如,明度、Cb及Cr预测性块)的对应样本来重构建CU的译码块(例如,明度、Cb及Cr译码块)。
滤波器单元1310可执行解块操作以减少与CU的译码块相关联的块伪影。视频解码器30可将CU的译码块存储于经解码图片缓冲器1312中。经解码图片缓冲器1312可提供参考图片以用于后续运动补偿、帧内预测及在显示装置(诸如,图1的显示装置32)上呈现。举例来说,视频解码器30可基于经解码图片缓冲器1312中的块对其它CU的PU执行帧内预测或帧间预测操作。
以此方式,视频解码器30表示视频解码装置的实例,所述视频解码装置包含存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:从包含视频数据的经编码表示的位流中的语法结构获得第一语法元素或第二语法元素中的至少一者。第一语法元素指示是否针对对应于语法结构的块启用4-参数仿射预测,且第二语法元素指示是否针对对应于语法结构的块启用6-参数仿射预测。基于第一语法元素指示针对视频数据的当前块启用4-参数仿射预测或第二语法元素指示针对当前块启用6-参数仿射预测,所述一或多个处理单元可使用仿射预测产生用于当前块的预测性块且使用预测性块及残余数据重构建当前块。语法结构可例如为SPS、PPS、切片标头或CTU中的一者。可独立地设置第一语法元素及第二语法元素。
所述一或多个处理单元也可经配置以基于第一语法元素指示针对块启用4-参数仿射预测或第二语法元素指示针对块启用6-参数仿射预测而从位流获得第三语法元素、第四语法元素及第五语法元素中的至少一者。第三语法元素可指示仿射合并模式是否用于当前块,且第四语法元素可指示仿射帧间模式是否用于当前块。第五语法元素可指示是用4-参数仿射预测还是6-参数仿射预测来编码当前块。所述一或多个处理单元也可经配置以基于第一语法元素指示针对块启用4-参数仿射预测或第二语法元素指示针对块启用6-参数仿射预测而非这两者而从位流获得第三语法元素及第四语法元素中的至少一者而非第五语法元素。
视频解码器30也表示视频解码装置的实例,所述视频解码装置包含:存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以:基于视频数据的一或多个先前经解码图片确定是否针对视频数据的当前图片中的块启用使用特定数目的参数的仿射预测模式;基于针对当前图片的块启用仿射预测,使用仿射预测来产生用于当前图片的当前块的预测性块;及使用预测性块及残余数据来重构建当前块。所述一或多个先前经解码图片可与当前图片处于相同时间层中。所述一或多个先前经解码图片中的每一者可具有相同POC模数M值,其中M为整数。
为确定是否针对当前图片中的块启用仿射预测模式,所述一或多个处理单元可经配置以基于使用仿射预测模式编码的一或多个先前经解码图片中的块的面积来确定是否针对当前图片的块启用仿射预测模式。用仿射预测模式编码的一或多个先前经解码图片中的块的面积可包含用呈仿射帧间模式及仿射合并模式的仿射预测模式编码的先前经解码图片中的块的面积。所述一或多个处理单元也可经配置以响应于到达GOP的末端而重设指示块面积的变量。
视频解码器30也表示视频解码装置的实例,所述视频解码装置包含存储器,其经配置以存储视频数据;及一或多个处理单元,其实施于电路中且经配置以:基于视频数据的当前块的左上方控制点的运动向量及当前块的右上方控制点的运动向量,导出当前块的左下方控制点的运动向量;使用当前块的左上方、右上方及左下方控制点的运动向量来产生预测性块;及基于预测性块及残余数据重构建当前块。
视频解码器30表示视频解码装置的实例,所述视频解码装置包含存储器,其经配置以存储视频数据,及一或多个处理单元,其实施于电路中且经配置以:从包含视频数据的经编码表示的位流中的语法结构获得第一语法元素或第二语法元素中的至少一者。第一语法元素指示是否针对对应于语法结构的块启用4-参数仿射预测,且第二语法元素指示是否针对对应于语法结构的块启用6-参数仿射预测。基于第一语法元素指示针对视频数据的当前块启用4-参数仿射预测或第二语法元素指示针对当前块启用6-参数仿射预测,所述一或多个处理单元经配置以使用仿射预测产生用于当前块的预测性块且使用预测性块及残余数据重构建当前块。
图13为说明实例视频编码过程的流程图。视频编码器20(包含帧间预测单元1220及熵编码单元1218)可经配置以执行图13的技术。在本发明的一个实例中,视频编码器20可经配置以确定针对对应于语法结构的块(包含第一块)启用6-参数仿射预测(1400)。响应于确定针对对应于语法结构的块启用6-参数仿射预测,视频编码器20可经配置以使用4-参数仿射预测或6-参数仿射预测中的一者来产生用于第一块的预测性块(1402)。视频编码器20可使用预测性块来确定第一块的残余数据(1404)且使残余数据及包括语法元素的语法结构包含于位流中,所述语法元素指示针对对应于所述语法结构的块启用6-参数仿射预测(1406)。语法结构可例如为序列参数集。
视频编码器20可经配置以:响应于针对对应于语法结构的块启用6-参数仿射预测,使指示是用4-参数仿射预测还是6-参数仿射预测来编码第一块的第二语法元素包含于位流中。第二语法元素可例如为语法结构的一部分或可为块级别语法元素,其并非语法结构的一部分。
图14为说明实例视频解码过程的流程图。视频解码器30(包含熵解码单元1300及运动补偿单元1314)可经配置以执行图14的技术。在本发明的一个实例中,视频解码器30可经配置以:从包括视频数据的经编码表示的位流中的语法结构获得指示是否针对对应于语法结构的块启用6-参数仿射预测的语法元素(1410)。基于语法元素指示针对对应于语法结构的块启用6-参数仿射预测,视频解码器30可使用6-参数仿射预测来产生用于对应于语法结构的块中的第一块的预测性块(1412)。视频解码器30可使用预测性块及残余数据来重构建第一块(1414)。语法结构可例如为序列参数集。
在一些实例中,响应于语法元素指示针对对应于语法结构的块启用6-参数仿射预测,视频解码器30可经配置以从位流获得指示是用4-参数仿射预测还是6-参数仿射预测编码第一块的第二语法元素。第二语法元素可例如为语法结构的一部分或可为块级别语法元素,其并非语法结构的一部分。
对应于语法结构的块可包含第二块,且视频解码器30可经配置以:响应于语法元素指示针对对应于语法结构的块启用6-参数仿射预测,从位流获得指示是用4-参数仿射预测还是6-参数仿射预测来编码第二块的第二语法元素。基于第二语法元素指示第二块是用4-参数仿射预测编码,视频解码器30可使用4-参数仿射预测以产生用于第二块的第二预测性块且使用第二预测性块及第二残余数据来重构建第二块。
在一些实例中,视频解码器30可经配置以:从位流中的语法结构获得指示是否针对对应于语法结构的块启用4-参数仿射预测的语法元素;及基于所述语法元素指示针对对应于语法结构的块停用4-参数仿射预测,使用6-参数仿射预测来产生用于第一块的预测性块。
出于说明的目的,已经关于HEVC标准的扩展而描述本发明的某些方面。然而,本发明中描述的技术可用于其它视频译码过程,包含当前在开发中或尚未开发的其它标准或专属视频译码过程。
如本发明中所描述,视频译码器可指视频编码器或视频解码器。类似地,视频译码单元可指视频编码器或视频解码器。同样地,如果适用,那么视频译码可指视频编码或视频解码。在本发明中,短语“基于”可指示仅仅基于、至少部分地基于,或以某一方式基于。本发明可使用术语“视频单元”或“视频块”或“块”以指代一或多个样本块及用以译码样本的一或多个块的样本的语法结构。视频单元的实例类型可包含CTU、CU、PU、变换单元(TU)、宏块、宏块分区,等等。在一些情形中,PU的论述可与宏块或宏块分区的论述互换。视频块的实例类型可包含译码树型块、译码块及其它类型的视频数据块。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列被执行、可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非循序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于诸如数据存储媒体的有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)诸如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理电路存取以检索指令、代码及/或数据结构以用于实施本发明中描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例而非限制,这些计算机可读存储媒体可为以下中的任何一或多者:RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪速存储器或可用以存储呈指令或数据结构形式的所要程序代码且可通过计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或诸如红外线、无线电及微波的无线技术,从网站、服务器或其它远程源来发射指令,那么同轴缆线、光纤缆线、双绞线、DSL或诸如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为是关于非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
本发明中所描述的功能性可通过固定功能及/或可编程处理电路执行。举例来说,指令可通过固定功能及/或可编程处理电路执行。这类处理电路系统可包含一或多个处理器,诸如一或多个DSP、通用微处理器、ASIC、FPGA或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描述的功能性可提供于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。此外,所述技术可完全实施于一或多个电路或逻辑元件中。处理电路可以各种方式耦合到其它组件。举例来说,处理电路可经由内部装置互连件、有线或无线网络连接或另一通信媒体耦合到其它组件。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或一组IC(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切来说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
各种实例已予以描述。这些及其它实例在以下权利要求书的范围内。

Claims (24)

1.一种解码视频数据的方法,所述方法包括:
从包括所述视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生用于所述第一块的预测性块;及
使用所述预测性块及残余数据来重构建所述第一块。
2.根据权利要求1所述的方法,其中所述语法元素包括序列参数集。
3.根据权利要求1所述的方法,其进一步包括:
响应于所述语法元素指示针对对应于所述语法结构的所述块启用6-参数仿射预测,从所述位流获得指示是用4-参数仿射预测还是6-参数仿射预测来编码所述第一块的第二语法元素,其中所述第二语法元素的值指示利用6-参数仿射预测对所述第一块进行编码。
4.根据权利要求3所述的方法,其中所述第二语法元素包括块级别语法元素,其并非所述语法结构的一部分。
5.根据权利要求1所述的方法,其中对应于所述语法结构的所述块包括第二块,所述方法进一步包括:
响应于所述语法元素指示针对对应于所述语法结构的所述块启用6-参数仿射预测,从所述位流获得指示是用4-参数仿射预测还是6-参数仿射预测来编码所述第二块的第二语法元素,其中所述第二语法元素的值指示使用4-参数仿射预测对所述第二块进行编码;及
基于所述第二语法元素指示用4-参数仿射预测编码所述第二块,使用仿射预测以;及
使用所述第二预测性块及第二残余数据以重构建所述第二块。
6.根据权利要求1所述的方法,其进一步包括:
从所述位流中的所述语法结构获得指示是否针对对应于所述语法结构的所述块启用4-参数仿射预测的语法元素;
基于所述语法元素指示针对对应于所述语法结构的所述块停用4-参数仿射预测,使用仿射预测以使用所述6-参数仿射预测产生所述第一块的所述预测性块。
7.一种编码视频数据的方法,所述方法包括:
确定针对对应于语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
响应于确定针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用4-参数仿射预测或所述6-参数仿射预测中的一者来产生用于所述第一块的预测性块;
使用所述预测性块来确定所述第一块的残余数据;及
使所述残余数据及包括语法元素的语法结构包含于位流中,所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测。
8.根据权利要求7所述的方法,其中所述语法元素包括序列参数集。
9.根据权利要求7所述的方法,其进一步包括:
响应于针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使指示所述第一块是用4-参数仿射预测还是6-参数仿射预测编码的第二语法元素包含于所述位流中,其中所述第二语法元素的值指示使用6-参数仿射预测对所述第一块进行编码。
10.根据权利要求9所述的方法,其中所述第二语法元素包括块级别语法元素,其并非所述语法结构的一部分。
11.根据权利要求9所述的方法,其中所述语法元素包括所述第二语法元素。
12.一种用于解码视频数据的装置,所述装置包括:
存储器,其经配置以存储视频数据;及
一或多个处理器,其耦合到所述存储器,实施于处理电路中且经配置以:
从包括所述视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生用于所述第一块的预测性块;及
使用所述预测性块及残余数据来重构建所述第一块。
13.根据权利要求12所述的装置,其中所述语法元素包括序列参数集。
14.根据权利要求12所述的装置,其中所述一或多个处理器进一步经配置以:
响应于所述语法元素指示针对对应于所述语法结构的所述块启用6-参数仿射预测,从所述位流获得指示是用4-参数仿射预测还是6-参数仿射预测来编码所述第一块的第二语法元素,其中所述第二语法元素的值指示利用6-参数仿射预测对所述第一块进行编码。
15.根据权利要求14所述的装置,其中所述第二语法元素包括块级别语法元素,其并非所述语法结构的一部分。
16.根据权利要求12所述的装置,其中对应于所述语法结构的所述块包括第二块,且其中所述一或多个处理器进一步经配置以:
响应于所述语法元素指示针对对应于所述语法结构的所述块启用6-参数仿射预测,从所述位流获得指示是用4-参数仿射预测还是6-参数仿射预测来编码所述第二块的第二语法元素,其中所述第二语法元素的值指示利用4-参数仿射预测对所述第二块进行编码;及
基于所述第二语法元素指示利用4-参数仿射预测对所述第二块进行编码,使用仿射预测以使用所述4-参数仿射预测产生所述第二块的第二预测性块;及
使用所述第二预测性块及第二残余数据以重构建所述第二块。
17.根据权利要求12所述的装置,其中所述一或多个处理器进一步经配置以:
从所述位流中的所述语法结构获得指示是否针对对应于所述语法结构的所述块启用4-参数仿射预测的语法元素;
基于所述语法元素指示针对对应于所述语法结构的所述块停用4-参数仿射预测,使用仿射预测以使用所述6-参数仿射预测产生所述第一块的所述预测性块。
18.一种用于编码视频数据的装置,所述装置包括:
存储器,其经配置以存储视频数据;及
一或多个处理器,其耦合到所述存储器,实施于处理电路中且经配置以:
确定针对对应于语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
响应于确定针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用4-参数仿射预测或所述6-参数仿射预测中的一者来产生用于所述第一块的预测性块;
使用所述预测性块来确定所述第一块的残余数据;及
使所述残余数据及包括语法元素的语法结构包含于位流中,所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测。
19.根据权利要求18所述的装置,其中所述语法元素包括序列参数集。
20.根据权利要求18所述的装置,其中所述一或多个处理器进一步经配置以:
响应于针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使指示所述第一块是用4-参数仿射预测还是6-参数仿射预测编码的第二语法元素包含于所述位流中,其中所述第二语法元素的值指示利用6-参数仿射预测对所述第一块进行编码。
21.根据权利要求20所述的装置,其中所述第二语法元素包括块级别语法元素,其并非所述语法结构的一部分。
22.根据权利要求20所述的装置,其中所述语法元素包括所述第二语法元素。
23.一种存储指令的计算机可读存储媒体,所述指令在由一或多个处理器执行时使所述一或多个处理器:
从包括视频数据的经编码表示的位流中的语法结构获得语法元素,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测,使用所述6-参数仿射预测产生用于所述第一块的预测性块;及
使用所述预测性块及残余数据来重构建所述第一块。
24.一种用于解码视频数据的设备,所述设备包括:
用于从包括所述视频数据的经编码表示的位流中的语法结构获得语法元素的装置,所述语法元素指示是否针对对应于所述语法结构的块启用6-参数仿射预测,其中对应于所述语法结构的所述块包括第一块;
用于基于所述语法元素指示针对对应于所述语法结构的所述块启用所述6-参数仿射预测而使用所述6-参数仿射预测产生用于所述第一块的预测性块的装置;及
用于使用所述预测性块及残余数据来重构建所述第一块的装置。
CN201880064365.7A 2017-10-10 2018-10-10 视频译码中的仿射预测 Active CN111164977B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762570417P 2017-10-10 2017-10-10
US62/570,417 2017-10-10
US16/155,744 2018-10-09
US16/155,744 US11877001B2 (en) 2017-10-10 2018-10-09 Affine prediction in video coding
PCT/US2018/055209 WO2019075058A1 (en) 2017-10-10 2018-10-10 AFFINED PREDICTION FOR VIDEO CODING

Publications (2)

Publication Number Publication Date
CN111164977A true CN111164977A (zh) 2020-05-15
CN111164977B CN111164977B (zh) 2024-05-24

Family

ID=65992744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880064365.7A Active CN111164977B (zh) 2017-10-10 2018-10-10 视频译码中的仿射预测

Country Status (11)

Country Link
US (2) US11877001B2 (zh)
EP (1) EP3695604A1 (zh)
KR (1) KR20200055015A (zh)
CN (1) CN111164977B (zh)
AU (1) AU2018348143B2 (zh)
BR (1) BR112020006588A2 (zh)
CA (1) CA3074931A1 (zh)
CL (1) CL2020000873A1 (zh)
SG (1) SG11202001985VA (zh)
TW (1) TWI805627B (zh)
WO (1) WO2019075058A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240025714A (ko) * 2016-03-24 2024-02-27 엘지전자 주식회사 비디오 코딩 시스템에서 인터 예측 방법 및 장치
US11082721B2 (en) * 2017-09-07 2021-08-03 Lg Electronics Inc. Method and apparatus for entropy-encoding and entropy-decoding video signal
US11877001B2 (en) 2017-10-10 2024-01-16 Qualcomm Incorporated Affine prediction in video coding
CN111247806B (zh) * 2017-10-27 2023-11-14 松下电器(美国)知识产权公司 解码装置和解码方法
US11172229B2 (en) 2018-01-12 2021-11-09 Qualcomm Incorporated Affine motion compensation with low bandwidth
WO2019183906A1 (zh) * 2018-03-29 2019-10-03 华为技术有限公司 帧间预测的方法和装置
US11509925B2 (en) * 2018-04-12 2022-11-22 Samsung Electronics Co.. Ltd. Method and device for video encoding and video decoding motion vector information
FI3780616T3 (fi) * 2018-04-13 2024-03-25 Lg Electronics Inc Menetelmä ja laite inter-ennustusta varten videonkäsittelyjärjestelmässä
KR20240055149A (ko) * 2018-05-10 2024-04-26 엘지전자 주식회사 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
WO2020006304A1 (en) * 2018-06-29 2020-01-02 Vid Scale, Inc. Adaptive control point selection for affine motion model based video coding
US10805624B2 (en) * 2018-07-16 2020-10-13 Tencent America LLC Determination of parameters of an affine model
WO2020018152A1 (en) * 2018-07-17 2020-01-23 Futurewei Technologies, Inc. Motion model signaling
US11057617B2 (en) * 2018-08-03 2021-07-06 Tencent America LLC Method and apparatus for video coding
CN117499672A (zh) * 2018-08-27 2024-02-02 华为技术有限公司 一种视频图像预测方法及装置
KR102510771B1 (ko) * 2018-09-10 2023-03-16 엘지전자 주식회사 영상 코딩 시스템에서 어파인 mvp 후보 리스트를 사용하는 어파인 움직임 예측에 기반한 영상 디코딩 방법 및 장치
EP3840376B1 (en) * 2018-09-21 2023-07-05 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image signal encoding/decoding method and device therefor
GB2577318B (en) * 2018-09-21 2021-03-10 Canon Kk Video coding and decoding
CN113170210A (zh) * 2018-10-10 2021-07-23 交互数字Vc控股公司 视频编码和解码中的仿射模式信令
GB2578150C (en) 2018-10-18 2022-05-18 Canon Kk Video coding and decoding
EP3895430A4 (en) * 2018-12-13 2022-10-12 Beijing Dajia Internet Information Technology Co., Ltd. METHOD FOR DRIVING CONSTRUCTED AFFINE FUSION CANDIDATES
US11202089B2 (en) * 2019-01-28 2021-12-14 Tencent America LLC Method and apparatus for determining an inherited affine parameter from an affine model
CA3132582A1 (en) * 2019-03-07 2020-09-10 Digitalinsights Inc. Image encoding/decoding method and apparatus
WO2020207475A1 (en) * 2019-04-12 2020-10-15 Mediatek Inc. Method and apparatus of simplified affine subblock process for video coding system
KR20220002990A (ko) 2019-04-25 2022-01-07 오피 솔루션즈, 엘엘씨 인터 예측에서의 글로벌 모션 제약 모션 벡터
JP2022529736A (ja) 2019-04-25 2022-06-23 オーピー ソリューションズ, エルエルシー 運動ベクトルインタ予測のための大域的運動モデル
KR20220002991A (ko) 2019-04-25 2022-01-07 오피 솔루션즈, 엘엘씨 글로벌 모션을 갖는 프레임들에서의 적응적 모션 벡터 예측 후보들
JP2022529510A (ja) * 2019-04-25 2022-06-22 オーピー ソリューションズ, エルエルシー 大域的運動を伴うフレームにおける選択的運動ベクトル予測候補
JP2022530054A (ja) 2019-04-25 2022-06-27 オーピー ソリューションズ, エルエルシー ピクチャヘッダ内の大域的運動ベクトルの信号伝達
CN114128287A (zh) * 2019-04-25 2022-03-01 Op方案有限责任公司 图像标头中全局运动矢量的信号发送
EP3954119A4 (en) * 2019-05-21 2022-06-22 Beijing Bytedance Network Technology Co., Ltd. SYNTAX SIGNALING IN A SUBBLOCK MERGE MODE
CN114128285B (zh) * 2019-06-14 2024-07-19 现代自动车株式会社 用于利用帧间预测来编码和解码视频的方法和装置
US11076167B2 (en) * 2019-06-24 2021-07-27 FG Innovation Company Limited Device and method for coding video data
KR20210006306A (ko) * 2019-07-08 2021-01-18 현대자동차주식회사 인터 예측을 이용하여 비디오를 부호화 및 복호화하는 방법 및 장치
WO2021027774A1 (en) 2019-08-10 2021-02-18 Beijing Bytedance Network Technology Co., Ltd. Subpicture dependent signaling in video bitstreams
WO2021063419A1 (en) * 2019-10-05 2021-04-08 Beijing Bytedance Network Technology Co., Ltd. Downsampling filter type for chroma blending mask generation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5654771A (en) * 1995-05-23 1997-08-05 The University Of Rochester Video compression system using a dense motion vector field and a triangular patch mesh overlay model
CN102893608A (zh) * 2010-04-13 2013-01-23 弗兰霍菲尔运输应用研究公司 使用次分割的二维信息信号的空间取样的编码
US20130272403A1 (en) * 2012-04-16 2013-10-17 Qualcomm Incorporated Reference picture set prediction for video coding
US20130322531A1 (en) * 2012-06-01 2013-12-05 Qualcomm Incorporated External pictures in video coding
WO2017087751A1 (en) * 2015-11-20 2017-05-26 Mediatek Inc. Method and apparatus for global motion compensation in video coding system
US20170188041A1 (en) * 2014-09-30 2017-06-29 Huawei Technologies Co., Ltd. Picture prediction method and related apparatus
US20170280162A1 (en) * 2016-03-22 2017-09-28 Qualcomm Incorporated Constrained block-level optimization and signaling for video coding tools

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1941797A (en) 1997-03-17 1998-10-12 Mitsubishi Denki Kabushiki Kaisha Image encoder, image decoder, image encoding method, image decoding method and image encoding/decoding system
US6735249B1 (en) 1999-08-11 2004-05-11 Nokia Corporation Apparatus, and associated method, for forming a compressed motion vector field utilizing predictive motion coding
US6738423B1 (en) 2000-01-21 2004-05-18 Nokia Mobile Phones Ltd. Method for encoding and decoding video information, a motion compensated video encoder and a corresponding decoder
US6711211B1 (en) 2000-05-08 2004-03-23 Nokia Mobile Phones Ltd. Method for encoding and decoding video information, a motion compensated video encoder and a corresponding decoder
KR100359115B1 (ko) 2000-05-24 2002-11-04 삼성전자 주식회사 영상 코딩 방법
EP1833261A1 (en) 2002-01-18 2007-09-12 Kabushiki Kaisha Toshiba Video encoding method and apparatus and video decoding method and apparatus
AU2005286786B2 (en) 2004-09-21 2010-02-11 Euclid Discoveries, Llc Apparatus and method for processing video data
KR101366242B1 (ko) 2007-03-29 2014-02-20 삼성전자주식회사 움직임 모델 파라메터의 부호화, 복호화 방법 및 움직임모델 파라메터를 이용한 영상의 부호화, 복호화 방법 및장치
US8891619B2 (en) 2008-06-16 2014-11-18 Dolby Laboratories Licensing Corporation Rate control model adaptation based on slice dependencies for video coding
JP2012080151A (ja) 2009-02-09 2012-04-19 Toshiba Corp 幾何変換動き補償予測を用いる動画像符号化及び動画像復号化の方法と装置
WO2011013253A1 (ja) 2009-07-31 2011-02-03 株式会社 東芝 幾何変換動き補償予測を用いる予測信号生成装置、動画像符号化装置及び動画像復号化装置
US8411750B2 (en) 2009-10-30 2013-04-02 Qualcomm Incorporated Global motion parameter estimation using block-based motion vectors
WO2012012582A1 (en) 2010-07-21 2012-01-26 Dolby Laboratories Licensing Corporation Reference processing using advanced motion models for video coding
CN107360427B (zh) * 2010-10-08 2020-09-01 Ge视频压缩有限责任公司 编码器和编码方法与解码器和解码方法
US9807424B2 (en) 2011-01-10 2017-10-31 Qualcomm Incorporated Adaptive selection of region size for identification of samples in a transition zone for overlapped block motion compensation
RU2480941C2 (ru) 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
US9282338B2 (en) 2011-06-20 2016-03-08 Qualcomm Incorporated Unified merge mode and adaptive motion vector prediction mode candidates selection
US9883203B2 (en) 2011-11-18 2018-01-30 Qualcomm Incorporated Adaptive overlapped block motion compensation
WO2014053090A1 (en) 2012-10-03 2014-04-10 Mediatek Inc. Method and apparatus of disparity vector derivation and inter-view motion vector prediction for 3d video coding
WO2014078068A1 (en) * 2012-11-13 2014-05-22 Intel Corporation Content adaptive transform coding for next generation video
EP3056007A4 (en) * 2013-10-11 2017-05-24 Sharp Kabushiki Kaisha Color information and chromaticity signaling
JP6345805B2 (ja) 2014-05-06 2018-06-20 寰發股▲ふん▼有限公司HFI Innovation Inc. Intraブロックコピーモード符号化のブロックベクトル予測の方法
WO2016008157A1 (en) 2014-07-18 2016-01-21 Mediatek Singapore Pte. Ltd. Methods for motion compensation using high order motion model
CN104363451B (zh) 2014-10-27 2019-01-25 华为技术有限公司 图像预测方法及相关装置
CN112188205B (zh) 2014-10-31 2024-04-05 三星电子株式会社 使用高精度跳过编码的视频编码设备和视频解码设备及其方法
MY190198A (en) 2015-03-10 2022-04-04 Huawei Tech Co Ltd Picture prediction method and related apparatus
EP3354029A4 (en) 2015-09-23 2019-08-21 Nokia Technologies Oy METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR ENCODING 360-DEGREE PANORAMIC VIDEO
CN108141588A (zh) 2015-09-24 2018-06-08 Lg电子株式会社 图像编码系统中的帧间预测方法和装置
WO2017065525A2 (ko) 2015-10-13 2017-04-20 삼성전자 주식회사 영상을 부호화 또는 복호화하는 방법 및 장치
GB2561507B (en) 2016-01-07 2021-12-22 Mediatek Inc Method and apparatus for affine merge mode prediction for video coding system
WO2017130696A1 (ja) 2016-01-29 2017-08-03 シャープ株式会社 予測画像生成装置、動画像復号装置、および動画像符号化装置
CN113612994B (zh) 2016-03-15 2023-10-27 寰发股份有限公司 具有仿射运动补偿的视频编解码的方法
US10560712B2 (en) 2016-05-16 2020-02-11 Qualcomm Incorporated Affine motion prediction for video coding
CN109076234A (zh) 2016-05-24 2018-12-21 华为技术有限公司 图像预测方法和相关设备
US10448010B2 (en) 2016-10-05 2019-10-15 Qualcomm Incorporated Motion vector prediction for affine motion models in video coding
US11877001B2 (en) 2017-10-10 2024-01-16 Qualcomm Incorporated Affine prediction in video coding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5654771A (en) * 1995-05-23 1997-08-05 The University Of Rochester Video compression system using a dense motion vector field and a triangular patch mesh overlay model
CN102893608A (zh) * 2010-04-13 2013-01-23 弗兰霍菲尔运输应用研究公司 使用次分割的二维信息信号的空间取样的编码
US20130272403A1 (en) * 2012-04-16 2013-10-17 Qualcomm Incorporated Reference picture set prediction for video coding
US20130322531A1 (en) * 2012-06-01 2013-12-05 Qualcomm Incorporated External pictures in video coding
US20170188041A1 (en) * 2014-09-30 2017-06-29 Huawei Technologies Co., Ltd. Picture prediction method and related apparatus
WO2017087751A1 (en) * 2015-11-20 2017-05-26 Mediatek Inc. Method and apparatus for global motion compensation in video coding system
US20170280162A1 (en) * 2016-03-22 2017-09-28 Qualcomm Incorporated Constrained block-level optimization and signaling for video coding tools

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZOU F ET.AL.: "EE4:Improved affine motion prediction" *

Also Published As

Publication number Publication date
CL2020000873A1 (es) 2020-09-25
US20190110064A1 (en) 2019-04-11
KR20200055015A (ko) 2020-05-20
EP3695604A1 (en) 2020-08-19
CA3074931A1 (en) 2019-04-18
CN111164977B (zh) 2024-05-24
US20240137556A1 (en) 2024-04-25
WO2019075058A1 (en) 2019-04-18
US11877001B2 (en) 2024-01-16
TWI805627B (zh) 2023-06-21
SG11202001985VA (en) 2020-04-29
AU2018348143B2 (en) 2022-08-25
BR112020006588A2 (pt) 2020-10-06
TW201924343A (zh) 2019-06-16
AU2018348143A1 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
CN111164977B (zh) 视频译码中的仿射预测
CN111316648B (zh) 视频译码中的仿射运动向量预测
CN110024403B (zh) 一种编解码视频数据的方法、装置和计算机可读存储媒体
US9736489B2 (en) Motion vector determination for video coding
US9426463B2 (en) Restriction of prediction units in B slices to uni-directional inter prediction
AU2012335887B2 (en) Generating additional merge candidates
US9491458B2 (en) Scalable video coding prediction with non-causal information
CN110771163A (zh) 视频译码中的帧间预测与帧内预测的组合
CN111164973A (zh) 译码用于视频译码的仿射预测运动信息
KR20210093926A (ko) 비디오 코딩을 위한 삼각형 모션 정보
CN114128261A (zh) 用于视频译码的组合的帧间和帧内预测模式
CN111869217A (zh) 简化的局部照度补偿
WO2014078430A1 (en) Device and method for scalable coding of video information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019170

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant