CN115004702A - 关于合并候选的运动估计区域 - Google Patents

关于合并候选的运动估计区域 Download PDF

Info

Publication number
CN115004702A
CN115004702A CN202080093766.2A CN202080093766A CN115004702A CN 115004702 A CN115004702 A CN 115004702A CN 202080093766 A CN202080093766 A CN 202080093766A CN 115004702 A CN115004702 A CN 115004702A
Authority
CN
China
Prior art keywords
block
video data
coding unit
video
merge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080093766.2A
Other languages
English (en)
Inventor
陈漪纹
修晓宇
马宗全
朱弘正
王祥林
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202211167139.6A priority Critical patent/CN115514971A/zh
Publication of CN115004702A publication Critical patent/CN115004702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种电子装置执行对视频数据进行编码和解码的方法。该方法包括:从比特流接收与编码单元对应的视频数据;从视频数据接收定义运动估计区域(MER)的第一语法元素;从视频数据接收多个第二语法元素,其中多个第二语法元素指示编码单元是否处于基于子块的时间运动矢量预测(SbTMVP)模式;根据确定编码单元处于SbTMVP模式:确定用于确定编码单元的时间矢量的空间相邻块与编码单元两者是否在同一MER内;并且根据确定空间相邻块与编码单元两者在同一MER内:将编码单元的时间矢量设置为零。

Description

关于合并候选的运动估计区域
相关申请
本申请要求于2019年12月24日提交的题为“Motion Estimation Region for theMerge Candidates(关于合并候选的运动估计区域)”的第62/953,421号美国临时专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本申请总体涉及视频编解码和压缩,并且更具体地,涉及关于改进对合并候选列表的构建的方法和装置。
背景技术
各种电子设备(诸如数字电视、膝上型计算机或台式计算机、平板计算机、数码相机、数字记录设备、数字媒体播放器、视频游戏机、智能电话、视频电话会议设备、视频流设备等)都支持数字视频。电子设备通过实施如由MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、Part 10、高级视频编解码(AVC)、高效视频编解码(HEVC)和通用视频编解码(VVC)标准定义的视频压缩/解压缩标准来发送、接收、编码、解码和/或存储数字视频数据。视频压缩通常包括执行空间(帧内)预测和/或时间(帧间)预测来减少或去除视频数据中固有的冗余。对于基于块的视频编解码,将视频帧分割为一个或多个条带,每个条带具有多个视频块,视频块也可被称为编码树单元(CTU)。每个CTU可包含一个编码单元(CU)或者递归地被拆分为更小的CU直到达到预定义的最小CU尺寸为止。每个CU(也称为叶CU)包含一个或多个变换单元(TU)并且每个CU还包含一个或多个预测单元(PU)。可以以帧内、帧间或IBC模式对每个CU进行编解码。视频帧的帧内编解码(I)条带中的视频块使用关于同一视频帧内的相邻块中的参考样点的空间预测来进行编码。视频帧的帧间编解码(P或B)条带中的视频块可使用关于同一视频帧内的相邻块中的参考样点的空间预测或关于其它先前参考视频帧和/或未来参考视频帧中的参考样点的时间预测。
基于先前已被编码的参考块(例如,相邻块)的空间预测或时间预测得出用于待编解码的当前视频块的预测块。找到参考块的过程可通过块匹配算法来完成。表示待编解码的当前块与预测块之间的像素差的残差数据被称为残差块或预测误差。根据残差块和指向参考帧中的形成预测块的参考块的运动矢量来对帧间编码块进行编码。确定运动矢量的过程通常被称为运动估计。根据帧内预测模式和残差块对帧内编码块进行编码。为了进一步压缩,将残差块从像素域变换到变换域(例如,频域),从而得出残差变换系数,残差变换系数然后可被量化。最初以二维阵列布置的量化的变换系数可被扫描以生成变换系数的一维矢量,然后被熵编码为视频比特流以实现甚至更大的压缩。
然后,将经编码的视频比特流保存于计算机可读存储介质(例如,闪存存储器)中,以由具有数字视频能力的另一电子设备访问或者有线或无线地直接发送到电子设备。然后,电子设备执行视频解压缩(其为与上文描述的视频压缩相反的过程),例如,通过对经编码的视频比特流进行解析来从比特流获得语法元素,并且至少部分地基于从比特流获得的语法元素从经编码的视频比特流将数字视频数据重建为其原始格式,并且电子设备在电子设备的显示器上呈现重建的数字视频数据。
随着数字视频质量从高清变为4K×2K或甚至8K×4K,待编码/解码的视频数据量呈指数增长。在如何在保持解码视频数据的图像质量的同时能够更有效率地对视频数据进行编码/解码方面,是一个长久挑战。
发明内容
本申请描述了与视频数据编码和解码相关的实施方式,并且更具体地,描述了与关于合并候选列表的构建的方法和装置相关的实施方式。
根据本申请的第一方面,一种对视频数据进行解码的方法包括:从比特流接收与编码单元对应的视频数据;从所述视频数据接收定义运动估计区域(MER)的第一语法元素;从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于基于子块的时间运动矢量预测(SbTMVP)模式;根据确定所述编码单元处于所述SbTMVP模式:确定所述编码单元和用于确定所述编码单元的时间矢量的空间相邻块两者是否在同一MER内;并且根据确定所述编码单元和所述空间相邻块两者在同一MER内:将所述编码单元的所述时间矢量设置为零。
根据本申请的第二方面,一种对视频数据进行解码的方法包括:从比特流接收与编码单元对应的视频数据;从所述视频数据接收定义运动估计区域(MER)的第一语法元素;从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于基于子块的时间运动矢量预测(SbTMVP)模式;根据确定所述编码单元处于所述SbTMVP模式:确定所述编码单元和用于确定所述编码单元的时间矢量的第一空间相邻块两者是否在同一MER内;并且根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:选择在所述MER外部的第二空间相邻块作为对所述第一空间相邻块的替代,以确定所述编码单元的所述时间矢量。
根据本申请的第三方面,一种对视频数据进行解码的方法包括:从比特流接收与编码单元对应的视频数据;从所述视频数据接收定义运动估计区域(MER)的第一语法元素;从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于合并模式;根据确定所述编码单元处于所述合并模式:接收针对所述编码单元的多个合并候选;确定所述编码单元和用于从所述多个合并候选确定第一合并候选的第一空间相邻块两者是否在同一MER内;并且根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:从所述多个合并候选选择第二合并候选作为对所述第一合并候选的替代。
根据本申请的第四方面,一种对视频数据进行解码的方法包括:从比特流接收与编码单元对应的视频数据;从所述视频数据接收定义运动估计区域MER的第一语法元素;从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于合并模式;根据确定所述编码单元处于所述合并模式:确定所述编码单元和用于确定合并候选的第一空间相邻块两者是否在同一MER内;并且根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:选择在所述MER外部的第二空间相邻块作为对所述第一空间相邻块的替代作为所述合并候选。
在一些实施例中,合并模式是帧内块复制(IBC)合并。
在一些实施例中,合并模式是组合帧间和帧内预测(CIIP)合并。
根据本申请的第五方面,一种电子装置包括一个或多个处理单元、存储器和存储在存储器中的多个程序。程序在被一个或多个处理单元执行时使电子装置执行如上文所描述的对视频数据进行解码的方法。
根据本申请的第六方面,一种非易失性计算机可读存储介质存储用于由具有一个或多个处理单元的电子装置执行的多个程序。程序在被一个或多个处理单元执行时使电子装置执行如上文所描述的对视频数据进行解码的方法。
附图说明
被包括以提供对实施方式的进一步理解并且被并入本文并构成说明书的一部分的附图示出了所描述的实施方式,并且与本说明书一起用于解释基本原理。相似的附图标记指代相应的部分。
图1是示出根据本公开的一些实施方式的示例性视频编码和解码系统的框图。
图2是示出根据本公开的一些实施方式的示例性视频编码器的框图。
图3是示出根据本公开的一些实施方式的示例性视频解码器的框图。
图4A至图4E是示出根据本公开的一些实施方式的如何将帧递归地分割为不同尺寸和形状的多个视频块的框图。
图5A和图5B是示出根据本公开的一些实施方式的VVC中的示例性基于子块的时间运动矢量预测(SbTMVP)过程的框图。
图6A和图6B是示出根据本公开的一些实施方式的示例性基于控制点的仿射运动模型的框图。
图7是示出根据本公开的一些实施方式的针对子块的示例性仿射运动矢量预测(AMVP)的框图。
图8是示出根据本公开的一些实施方式的继承的仿射运动预测因子的示例性位置的框图。
图9是示出根据本公开的一些实施方式的示例性控制点运动矢量继承的框图。
图10是示出根据本公开的一些实施方式的用于构建的仿射合并模式的候选位置的示例性位置的框图。
图11是示出根据本公开的一些实施方式的用于导出时间矢量的空间相邻块的示例性位置的框图。
图12是示出根据本公开的一些实施方式的IBC空间候选的示例性位置的框图。
图13是示出根据本公开的一些实施方式的IBC空间候选的示例性位置的框图。
图14和图15是示出根据本公开的一些实施方式的非相邻空间候选的示例性位置的框图。
图16是示出根据本公开的一些实施方式的在当前编码单元/块与用于确定当前合并候选的空间相邻块在同一运动估计区域(MER)中时确定当前合并候选替代的示例性过程的流程图。
具体实施方式
现在将详细参照具体实施方式,在附图中示出具体实施方式的示例。在以下详细描述中,阐述了很多非限制性具体细节以便帮助理解本文呈现的主题。但是对于本领域普通技术人员将显而易见的是,在不脱离权利要求的范围的情况下,可使用各种替代方案,并且可在没有这些具体细节的情况下实践主题。例如,对于本领域普通技术人员将显而易见的是,本文呈现的主题可在具有数字视频能力的许多类型的电子设备上实现。
在一些实施例中,引入了对新导出的编解码工具的若干修改,以支持并行运动估计或者用于对位于同一并行运动估计区域(PMER)内的块的并行运动估计的更并行友好的设计。对于编码器和解码器两者,可在不同级隐式地预先确定PMER的尺寸。例如,PMER的尺寸可被固定为预定义尺寸(例如,32×32、64×64),或者PMER可被设置为编码树单元(CTU)尺寸或最大变换单元(TU)尺寸或虚拟管道数据单元(VPDU)尺寸。或者,可在不同级(例如,序列级、图片级、条带级、瓦片级、CTU级和/或块级)用信号发送附加语法元素,以指示PMER的尺寸(例如,宽度和高度)。还可在不同级(例如,序列级、图片级、条带级、瓦片级、CTU级和/或块级)用信号发送其他语法元素,以指示该方案是否被启用。
图1是示出根据本公开的一些实施方式的用于并行地对视频块进行编码和解码的示例性系统10的框图。如图1中所示,系统10包括源设备12,源设备12生成并编码稍后将由目标设备14进行解码的视频数据。源设备12和目标设备14可包括各种各样的电子设备中的任何电子设备,包括台式计算机或膝上型计算机、平板计算机、智能电话、机顶盒、数字电视、相机、显示器设备、数字媒体播放器、视频游戏机、视频流传输设备等。在一些实施方式中,源设备12和目标设备14配备有无线通信能力。
在一些实施方式中,目标设备14可经由链路16接收待解码的编码视频数据。链路16可包括能够将编码视频数据从源设备12移动到目标设备14的任何类型的通信介质或设备。在一个示例中,链路16可包括使源设备12能够实时地将编码视频数据直接发送到目标设备14的通信介质。编码视频数据可根据通信标准(诸如无线通信协议)被调制,并且被发送到目标设备14。通信介质可包括任何无线或有线通信介质,诸如射频(RF)频谱或一个或多个物理传输线。通信介质可形成基于分组的网络(例如,局域网、广域网或诸如互联网的全球网)的一部分。通信介质可包括路由器、交换机、基站或可有利于促进从源设备12到目标设备14的通信的任何其它装置。
在一些其它实施方式中,编码视频数据可从输出接口22被发送到存储设备32。随后,存储设备32中的编码视频数据可通过目标设备14经由输入接口28被访问。存储设备32可包括各种分布式或本地访问的数据存储介质中的任何数据存储介质,诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器、或者用于存储编码视频数据的任何其它合适的数字存储介质。在另一示例中,存储设备32可对应于文件服务器或可保留由源设备12生成的编码视频数据的另一中间存储设备。目标设备14可从存储设备32经由流传输或下载来访问存储的视频数据。文件服务器可以是能够存储编码视频数据并且将编码视频数据发送到目标设备14的任何类型的计算机。示例性文件服务器包括web服务器(例如,用于网站)、FTP服务器、网络附属存储(NAS)设备或本地磁盘驱动器。目标设备14可通过适合于访问存储在文件服务器上的编码视频数据的任何标准数据连接来访问编码视频数据,标准数据连接包括无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或无线信道和有线连接两者的组合。编码视频数据从存储设备32的传输可以是流传输、下载传输或流传输和下载传输两者的组合。
如图1中所示,源设备12包括视频源18、视频编码器20和输出接口22。视频源18可包括诸如以下项的源或此类源的组合:视频捕获设备(例如,摄像机)、包含先前捕获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口、和/或用于生成作为源视频的计算机图形数据的计算机图形系统。作为一个示例,如果视频源18是安全监控系统的摄像机,则源设备12和目标设备14可形成相机电话或视频电话。然而,本申请中所描述的实施方式通常可适用于视频编解码,并且可应用于无线和/或有线应用。
可由视频编码器20对捕获、预先捕获或计算机生成的视频进行编码。可经由源设备12的输出接口22直接将编码视频数据发送到目标设备14。还可(或可选地)将编码视频数据存储到存储设备32上以供稍后被目标设备14或其它设备访问,以用于解码和/或回放。输出接口22可进一步包括调制解调器和/或发送器。
目标设备14包括输入接口28、视频解码器30和显示器设备34。输入接口28可包括接收器和/或调制解调器,并且通过链路16接收编码视频数据。通过链路16通信传送或在存储设备32上提供的编码视频数据可包括由视频编码器20生成的各种语法元素以供视频解码器30在对视频数据进行解码时使用。此类语法元素可被包括在通信介质上发送、存储在存储介质上或存储在文件服务器上的编码视频数据内。
在一些实施方式中,目标设备14可包括显示器设备34,显示器设备34可以是集成显示器设备和被配置为与目标设备14通信的外部显示器设备。显示器设备34将解码视频数据显示给用户,并且可包括各种显示器设备中的任何显示器设备,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示器设备。
视频编码器20和视频解码器30可根据专有标准或行业标准(例如,VVC、HEVC、MPEG-4、Part 10、高级视频编解码(AVC))或此类标准的扩展进行操作。应当理解,本申请不限于特定的视频编码/解码标准,并且可适用于其它视频编码/解码标准。通常认为源设备12的视频编码器20可被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行编码。类似地,还通常认为目标设备14的视频解码器30可被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行解码。
视频编码器20和视频解码器30可分别被实现为各种合适的编码器电路中的任何电路,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件实现时,电子设备可将用于软件的指令存储于合适的非易失性计算机可读介质中,并且使用一个或多个处理器执行硬件中的指令以执行本公开中所公开的视频编码/解码操作。视频编码器20和视频解码器30中的每一个可被包括在一个或多个编码器或解码器中,编码器或解码器中的任一个可被集成为相应设备中的组合式编码器/解码器(CODEC)的一部分。
图2是示出根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可执行对视频帧内的视频块的帧内预测编码和帧间预测编码。帧内预测编码依赖于空间预测以减少或去除给定视频帧或图片内的视频数据中的空间冗余。帧间预测编码依赖于时间预测以减少或去除视频序列的相邻视频帧或图片内的视频数据中的时间冗余。
如图2中所示,视频编码器20包括视频数据存储器40、预测处理单元41、解码图片缓冲器(DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41进一步包括运动估计单元42、运动补偿单元44、分割单元45、帧内预测处理单元46和帧内块复制(BC)单元48。在一些实施方式中,视频编码器20还包括用于视频块重建的反量化单元58、逆变换处理单元60和加法器62。去块滤波器(未示出)可位于加法器62与DPB 64之间以对块边界进行滤波以从重建视频去除块效应。除了去块滤波器之外,还可使用环路滤波器(未示出)来对加法器62的输出进行滤波。视频编码器20可采取固定或可编程硬件单元的形式,或者可分散在所说明的固定或可编程硬件单元中的一个或多个中。
视频数据存储器40可存储将由视频编码器20的组件进行编码的视频数据。视频数据存储器40中的视频数据可例如从视频源18获得。DPB 64是存储供视频编码器20(例如,以帧内或帧间预测编码模式)在对视频数据进行编码时使用的参考视频数据的缓冲器。视频数据存储器40和DPB 64可由各种存储器设备中的任何存储器设备形成。在各种示例中,视频数据存储器40可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
如图2中所示,在接收到视频数据之后,预测处理单元41内的分割单元45将视频数据分割为视频块。此分割还可包括根据与视频数据相关联的预定义的拆分结构(诸如四叉树结构)将视频帧分割为条带、瓦片(tile)或其它更大编码单元(CU)。视频帧可被划分为多个视频块(或被称为分区的视频块集合)。预测处理单元41可基于误差结果(例如,编解码速率和失真等级)为当前视频块选择多个可行预测编码模式之一,诸如多个帧内预测编码模式中的一个或多个帧间预测编码模式中的一个。预测处理单元41可将所得的帧内预测编码块或帧间预测编码块提供给加法器50以生成残差块,并且提供给加法器62以重建编码块以用于随后作为参考帧的一部分使用。预测处理单元41还将语法元素(诸如运动矢量、帧内模式指示符、分割信息和其它此类语法信息)提供给熵编码单元56。
为了选择用于当前视频块的合适的帧内预测编码模式,预测处理单元41内的帧内预测处理单元46可与和待编码的当前块在同一帧中的一个或多个相邻块相关地执行当前视频块的帧内预测编码以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44与一个或多个参考帧中的一个或多个预测块相关地执行当前视频块的帧间预测编码以提供时间预测。视频编码器20可执行多个编码遍次,例如,来为视频数据的每个块选择合适的编码模式。
在一些实施方式中,运动估计单元42通过根据视频帧序列内的预定模式生成运动矢量来确定用于当前视频帧的帧间预测模式,运动矢量指示当前视频帧内的视频块的预测单元(PU)相对于参考视频帧内的预测块的位移。由运动估计单元42执行的运动估计是生成估计针对视频块的运动的运动矢量的过程。例如,运动矢量可指示当前视频帧或图片内的视频块的PU相对于与当前帧内正被编码的当前块(或其它编码单元)相关的参考帧内的预测块(或其它编码单元)的位移。预定模式可将序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以与由运动估计单元42确定用于帧间预测的运动矢量类似的方式确定用于帧内BC编码的矢量(例如,块矢量),或可利用运动估计单元42确定块矢量。
在像素差方面,预测块是被认为与待编码视频块的PU紧密匹配的参考帧的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实施方式中,视频编码器20可计算用于DPB 64中存储的参考帧的子整数像素位置的值。例如,视频编码器20可对参考帧的四分之一像素位置、八分之一像素位置或其它分数像素位置的值进行插值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动矢量。
运动估计单元42通过以下来计算针对帧间预测编码帧中的视频块的PU的运动矢量:将PU的位置与从第一参考帧列表(列表0)或第二参考帧列表(列表1)选择的参考帧的预测块的位置进行比较,第一参考帧列表和第二参考帧列表中的每一个标识存储在DPB 64中的一个或多个参考帧。运动估计单元42将计算的运动矢量发送到运动补偿单元44,然后发送到熵编码单元56。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动矢量提取或生成预测块。在接收到针对当前视频块的PU的运动矢量后,运动补偿单元44可在参考帧列表中的一个参考帧列表中定位运动矢量所指向的预测块,从DPB 64取回预测块,并且将预测块转发到加法器50。然后,加法器50通过从正被编码的当前视频块的像素值减去由运动补偿单元44提供的预测块的像素值来形成像素差值的残差视频块。形成残差视频块的像素差值可包括亮度差分量或色度差分量或两者。运动补偿单元44还可生成与视频帧的视频块相关联的语法元素以供视频解码器30在对视频帧的视频块进行解码时使用。语法元素可包括例如定义用于识别预测块的运动矢量的语法元素、指示预测模式的任何标记、或本文描述的任何其它语法信息。应注意,运动估计单元42和运动补偿单元44可高度集成,但出于概念目的而单独说明。
在一些实施方式中,帧内BC单元48可以以与上文结合运动估计单元42和运动补偿单元44所描述的方式类似的方式生成矢量并提取预测块,但是这些预测块在与正被编码的当前块的同一帧中,并且这些矢量被称为块矢量而非运动矢量。具体地,帧内BC单元48可确定将用于对当前块进行编码的帧内预测模式。在一些示例中,帧内BC单元48可例如在单独的编码遍次期间使用各种帧内预测模式来对当前块进行编码,并且通过率失真分析来测试它们的性能。接下来,帧内BC单元48可在各种测试的帧内预测模式中选择合适的帧内预测模式以使用并相应地生成帧内模式指示符。例如,帧内BC单元48可使用率失真分析针对各种测试的帧内预测模式计算率失真值,并且在测试的模式中选择具有最佳率失真特性的帧内预测模式作为合适的帧内预测模式来使用。率失真分析大体上确定编码块与被编码以生成编码块的原始未编码块之间的失真(或误差)量、以及用于生成编码块的比特率(即,比特数量)。帧内BC单元48可从针对各种编码块的失真和速率计算比率,以确定哪个帧内预测模式展现针对块的最佳率失真值。
在其它示例中,帧内BC单元48可全部或部分地使用运动估计单元42和运动补偿单元44来执行根据本文描述的实施方式的用于帧内BC预测的此类功能。在任一情况下,对于帧内块复制,在像素差方面,预测块可以是被认为与待编码的块紧密匹配的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定,并且预测块的识别可包括计算针对子整数像素位置的值。
无论预测块是来自根据帧内预测的同一帧还是来自根据帧间预测的不同帧,视频编码器20可通过从正被编码的当前视频块的像素值减去预测块的像素值来形成像素差值,从而形成残差视频块。形成残差视频块的像素差值可包括亮度分量差和色度分量差两者。
作为如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测或由帧内BC单元48执行的帧内块复制预测的替代方案,帧内预测处理单元46可对当前视频块进行帧内预测。具体地,帧内预测处理单元46可确定帧内预测模式以用于对当前块进行编码。为此,帧内预测处理单元46可例如在单独的编码遍次期间使用各种帧内预测模式来对当前块进行编码,并且帧内预测处理单元46(或在一些示例中,模式选择单元)可从测试的帧内预测模式中选择合适的帧内预测模式来使用。帧内预测处理单元46可将指示针对块选择的帧内预测模式的信息提供给熵编码单元56。熵编码单元56可将指示选择的帧内预测模式的信息编码到比特流中。
在预测处理单元41经由帧间预测或帧内预测确定针对当前视频块的预测块之后,加法器50通过从当前视频块减去预测块来形成残差视频块。残差块中的残差视频数据可被包括在一个或多个变换单元(TU)中并且提供给变换处理单元52。变换处理单元52使用变换(诸如离散余弦变换(DCT)或概念上类似的变换)将残差视频数据变换为残差变换系数。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步减小比特率。量化过程还可减小与系数中的一些或全部相关联的比特深度。可通过调整量化参数来修改量化程度。在一些示例中,量化单元54可随后执行对包括量化的变换系数的矩阵的扫描。可选地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56使用例如上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编解码(CABAC)、基于语法的上下文自适应二进制算术编解码(SBAC)、概率区间分割熵(PIPE)编解码或另一熵编解码方法或技术,将量化的变换系数熵编码成视频比特流。然后,编码的比特流可被发送到视频解码器30,或存档于存储设备32中以供稍后发送到视频解码器30或由视频解码器30取回。熵编码单元56还可对用于正被编码的当前视频帧的运动矢量和其它语法元素进行熵编码。
反量化单元58和逆变换处理单元60分别应用反量化和逆变换以在像素域中重建残差视频块以用于生成用于预测其它视频块的参考块。如上文指出的,运动补偿单元44可从存储在DPB 64中的帧的一个或多个参考块生成运动补偿预测块。运动补偿单元44还可将一个或多个插值滤波器应用于预测块以计算子整数像素值以用于在运动估计时使用。
加法器62将重建的残差块加到由运动补偿单元44生成的运动补偿预测块来生成参考块以存储在DPB 64中。然后,参考块可由帧内BC单元48、运动估计单元42和运动补偿单元44用作预测块以对后续视频帧中的另一视频块进行帧间预测。
图3是示出根据本申请的一些实施方式的示例性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、反量化单元86、逆变换处理单元88、加法器90和DPB 92。预测处理单元81进一步包括运动补偿单元82、帧内预测处理单元84和帧内BC单元85。视频解码器30可执行与上文结合图2关于视频编码器20所描述的编码过程基本互逆的解码过程。例如,运动补偿单元82可基于从熵解码单元80接收的运动矢量生成预测数据,而帧内预测单元84可基于从熵解码单元80接收的帧内预测模式指示符生成预测数据。
在一些示例中,视频解码器30的单元可被分派任务以执行本申请的实施方式。此外,在一些示例中,本公开的实施方式可分散在视频解码器30的多个单元中的一个或多个单元中。例如,帧内BC单元85可单独地或与视频解码器30的其它单元(诸如,运动补偿单元82、帧内预测处理单元84和熵解码单元80)组合地执行本申请的实施方式。在一些示例中,视频解码器30可不包括帧内BC单元85,并且帧内BC单元85的功能可由预测处理单元81的其它组件(诸如运动补偿单元82)执行。
视频数据存储器79可存储将由视频解码器30的其它组件进行解码的视频数据,诸如编码视频比特流。存储在视频数据存储器79中的视频数据可例如从存储设备32、从本地视频源(诸如相机)、经由视频数据的有线或无线网络通信,或通过访问物理数据存储介质(例如,闪存驱动器或硬盘)获得。视频数据存储器79可包括存储来自编码视频比特流的编码视频数据的编解码图片缓冲器(CPB)。视频解码器30的解码图片缓冲器(DPB)92存储参考视频数据以供视频解码器30(例如,以帧内或帧间预测编解码模式)在对视频数据进行解码时使用。视频数据存储器79和DPB 92可由各种存储器设备中的任何存储器设备形成,诸如动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器设备。出于说明性目的,视频数据存储器79和DPB 92在图3中描绘为视频解码器30的两个不同组件。但是对于本领域的技术人员将显而易见的是,视频数据存储器79和DPB 92可由同一存储器设备或单独存储器设备提供。在一些示例中,视频数据存储器79可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
在解码过程期间,视频解码器30接收表示编码视频帧的视频块和相关联的语法元素的编码视频比特流。视频解码器30可在视频帧级和/或视频块级接收语法元素。视频解码器30的熵解码单元80对比特流进行熵解码以生成量化系数、运动矢量或帧内预测模式指示符、以及其它语法元素。然后,熵解码单元80将运动矢量和其它语法元素转发到预测处理单元81。
当视频帧被编码为帧内预测编码(I)帧或用于其它类型的帧中的帧内编码预测块时,预测处理单元81的帧内预测处理单元84可基于用信号发送的帧内预测模式和来自当前帧的先前解码块的参考数据来生成用于当前视频帧的视频块的预测数据。
当视频帧被编码为帧间预测编码(即,B或P)帧时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动矢量和其它语法元素生成针对当前视频帧的视频块的一个或多个预测块。预测块中的每一个可从参考帧列表中的一个参考帧列表内的参考帧生成。视频解码器30可基于存储在DPB 92中的参考帧使用默认构建技术来构建参考帧列表,列表0和列表1。
在一些示例中,当根据本文描述的帧内BC模式对视频块进行编解码时,预测处理单元81的帧内BC单元85基于从熵解码单元80接收的块矢量和其它语法元素生成针对当前视频块的预测块。预测块可在由视频编码器20定义的与当前视频块的同一图片的重建区域内。
运动补偿单元82和/或帧内BC单元85通过解析运动矢量和其它语法元素来确定针对当前视频帧的视频块的预测信息,然后使用该预测信息生成针对正被解码的当前视频块的预测块。例如,运动补偿单元82使用接收到的语法元素中的一些语法元素来确定用于对视频帧的视频块进行编解码的预测模式(例如,帧内预测或帧间预测)、帧间预测帧类型(例如,B或P)、用于针对帧的参考帧列表中的一个或多个的构建信息、用于帧的每个帧间预测编码视频块的运动矢量、用于帧的每个帧间预测编解码视频块的帧间预测状态、以及用于对当前视频帧中的视频块进行解码的其它信息。
类似地,帧内BC单元85可使用接收到的语法元素中的一些语法元素,例如标记,以确定当前视频块是使用帧内BC模式预测的、帧的哪些视频块在重建区域内且应被存储在DPB 92中的构建信息、用于帧的每个帧内BC预测视频块的块矢量、用于帧的每个帧内BC预测视频块的帧内BC预测状态、以及用于对当前视频帧中的视频块进行解码的其它信息。
运动补偿单元82还可使用如由视频编码器20在视频块的编码期间使用的插值滤波器执行插值,以计算针对参考块的子整数像素的插值。在这种情况下,运动补偿单元82可从接收到的语法元素确定由视频编码器20使用的插值滤波器,并且使用这些插值滤波器来生成预测块。
反量化单元86使用由视频编码器20针对视频帧中的每个视频块计算的用于确定量化程度的相同的量化参数,对在比特流中提供且由熵解码单元80熵解码的量化的变换系数进行反量化。逆变换处理单元88将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便在像素域中重建残差块。
在运动补偿单元82或帧内BC单元85基于矢量和其它语法元素生成针对当前视频块的预测块之后,加法器90通过将来自逆变换处理单元88的残差块与由运动补偿单元82和帧内BC单元85生成的对应预测块相加,来重建针对当前视频块的解码视频块。环路滤波器(未示出)可位于加法器90与DPB 92之间以进一步处理解码视频块。然后,将给定帧中的解码视频块存储在DPB 92中,DPB 92存储用于接下来的视频块的后续运动补偿的参考帧。DPB92或与DPB 92分离的存储器设备还可存储解码视频以用于稍后呈现在显示器设备(例如,图1的显示器设备34)上。
在典型的视频编解码过程中,视频序列通常包括帧或图片的有序集合。每一帧可包括三个样点阵列,表示为SL、SCb和SCr。SL是亮度样点的二维阵列。SCb是Cb色度样点的二维阵列。SCr是Cr色度样点的二维阵列。在其它情况下,帧可以是单色的,因此仅包括亮度样点的一个二维阵列。
如图4A中所示,视频编码器20(或更具体地,分割单元45)通过首先将帧分割为编码树单元(CTU)的集合来生成帧的编码表示。视频帧可包括以光栅扫描顺序从左到右和从上到下连续排序的整数个CTU。每个CTU是最大的逻辑编码单元,并且由视频编码器20以序列参数集用信号发送CTU的宽度和高度,使得视频序列中的所有CTU具有128×128、64×64、32×32和16×16之一的相同尺寸。但是应当注意,本申请不一定限于特定尺寸。如图4B中所示,每个CTU可包括亮度样点的一个编码树块(CTB)、色度样点的两个对应编码树块、以及用于对编码树块的样点进行编解码的语法元素。语法元素描述编码像素块的不同类型的单元的性质以及可如何在视频解码器30处重建视频序列,包括帧间预测或帧内预测、帧内预测模式、运动矢量和其它参数。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个编码树块和用于对该编码树块的样点进行编解码的语法元素。编码树块可以是N×N样点块。
为实现更好的性能,视频编码器20可对CTU的编码树块递归地执行树分割,例如二叉树分割、三叉树分割、四叉树分割或两者的组合,并且将CTU划分为较小的编码单元(CU)。如图4C中所描绘的,首先将64×64CTU 400划分为四个较小的CU,每个CU具有32×32的块尺寸。在四个较小的CU中,将CU 410和CU 420分别划分为块尺寸为16×16的四个CU。将两个16×16的CU 430和CU 440分别进一步划分为块尺寸为8×8的四个CU。图4D描绘了示出如图4C中所描绘的CTU 400的分割过程的最终结果的四叉树数据结构,四叉树的每个叶节点与范围从32×32到8×8的各个尺寸的一个CU对应。类似于图4B中描绘的CTU,每个CU可包括相同尺寸的帧的亮度样点的编码块(CB)和色度样点的两个对应编码块、和用于对编码块的样点进行编解码的语法元素。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个编码块和用于对编码块的样点进行编解码的语法结构。应注意,图4C和图4D中所描绘的四叉树分割仅出于说明性目的,并且一个CTU可基于四叉树/三叉树/二叉树分割被拆分为CU以适应于变化的局部特性。在多类型树结构中,一个CTU被四叉树结构分割,并且每个四叉树叶CU可被二叉和三叉树结构进一步分割。如图4E所示,存在五种分割类型,即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。
在一些实施方式中,视频编码器20可进一步将CU的编码块分割为一个或多个M×N预测块(PB)。预测块是被应用相同预测(帧间或帧内)的矩形(正方形或非正方形)样点块。CU的预测单元(PU)可包括亮度样点的预测块、色度样点的两个对应预测块和用于对预测块进行预测的语法元素。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用于对预测块进行预测的语法结构。视频编码器20可生成针对CU的每个PU的亮度预测块、Cb预测块和Cr预测块的预测亮度块、预测Cb块和预测Cr块。
视频编码器20可使用帧内预测或帧间预测来生成针对PU的预测块。如果视频编码器20使用帧内预测来生成PU的预测块,则视频编码器20可基于与PU相关联的帧的解码样点来生成PU的预测块。如果视频编码器20使用帧间预测来生成PU的预测块,则视频编码器20可基于除与PU相关联的帧之外的一个或多个帧的解码样点来生成PU的预测块。
在视频编码器20生成针对CU的一个或多个PU的预测亮度块、预测Cb块和预测Cr块之后,视频编码器20可通过从CU的原始亮度编码块减去CU的预测亮度块来生成针对CU的亮度残差块,使得CU的亮度残差块中的每个样点指示CU的预测亮度块之一中的亮度样点与CU的原始亮度编码块中的对应样点之间的差。类似地,视频编码器20可分别生成针对CU的Cb残差块和Cr残差块,使得CU的Cb残差块中的每个样点指示CU的预测Cb块之一中的Cb样点与CU的原始Cb编码块中的对应样点之间的差,并且CU的Cr残差块中的每个样点可指示CU的预测Cr块之一中的Cr样点与CU的原始Cr编码块中的对应样点之间的差。
此外,如图4C中所示,视频编码器20可使用四叉树分割将CU的亮度残差块、Cb残差块和Cr残差块分解成一个或多个亮度变换块、Cb变换块和Cr变换块。变换块是被应用相同变换的矩形(正方形或非正方形)样点块。CU的变换单元(TU)可包括亮度样点的变换块、色度样点的两个对应变换块和用于对变换块样点进行变换的语法元素。因此,CU的每个TU可与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中,与TU相关联的亮度变换块可以是CU的亮度残差块的子块。Cb变换块可以是CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用于对该变换块的样点进行变换的语法结构。
视频编码器20可将一个或多个变换应用于TU的亮度变换块以生成针对TU的亮度系数块。系数块可以是变换系数的二维阵列。变换系数可以是标量。视频编码器20可将一个或多个变换应用于TU的Cb变换块以生成针对TU的Cb系数块。视频编码器20可将一个或多个变换应用于TU的Cr变换块以生成针对TU的Cr系数块。
在生成系数块(例如,亮度系数块、Cb系数块或Cr系数块)之后,视频编码器20可对系数块进行量化。量化通常是指变换系数被量化以可能减少用于表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20对系数块进行量化之后,视频编码器20可对指示量化的变换系数的语法元素进行熵编码。例如,视频编码器20可对指示量化的变换系数的语法元素执行上下文自适应二进制算术编解码(CABAC)。最后,视频编码器20可输出包括比特序列的比特流,比特序列形成编码帧和相关联数据的表示,比特流被保存于存储设备32中或被发送到目标设备14。
在接收到由视频编码器20生成的比特流之后,视频解码器30可解析比特流以从比特流获得语法元素。视频解码器30可至少部分地基于从比特流获得的语法元素来对视频数据的帧进行重建。对视频数据进行重建的过程通常与由视频编码器20执行的编码过程互逆。例如,视频解码器30可对与当前CU的TU相关联的系数块执行逆变换以重建与当前CU的TU相关联的残差块。视频解码器30还通过将针对当前CU的PU的预测块的样点加到当前CU的TU的变换块的对应样点,来重建当前CU的编码块。在重建针对帧的每个CU的编码块之后,视频解码器30可重建帧。
在一些实施例中,存在用信号发送预测模式的不同方式。在VVC中,每个CU可被编解码为跳过模式或非跳过模式。对于被编解码为非跳过模式的CU,进一步用信号发送语法元素以指示当前CU是被编解码为帧内模式、帧间模式、帧内块复制(IBC)模式还是调色板(PLT)模式。这些模式在VVC规范中分别被称为“MODE_INTRA”、“MODE_INTER”、“MODE_IBC”和“MODE_PLT”。对于编解码为帧间模式的CU,预测信号可由来自不是当前图片的参考图片的像素生成。此外,针对被编解码为帧间模式的CU,进一步用信号发送一个标志以指示当前CU是否为合并模式。对于被合并模式编解码的CU,使用额外语法元素进一步用信号发送若干不同类型的合并模式。这些不同类型的合并模式包括常规合并模式、子块合并模式、利用MV差的合并模式(MMVD)、组合帧间和帧内预测(CIIP)和三角形合并模式。在以下部分中示出了合并模式。
在一些实施例中,在VVC中,通过按顺序包括以下五种类型的候选来构建合并候选列表:来自空间相邻CU的空间MVP(即,运动矢量预测因子)、来自同位CU的时间MVP、来自FIFO表的基于历史的MVP、成对平均MVP和零MV。
在VVC中,合并列表的大小在条带头中被用信号发送,并且合并列表的最大允许大小为6。对于在合并模式下编解码的每个CU,使用截断一元二值化(TU)对最佳合并候选的索引进行编码。合并索引的第一二进制位利用上下文被编解码,并且旁路编解码被用于其它二进制位。在本公开的以下上下文中,该扩展合并模式也被称为常规合并模式,因为其概念与HEVC中使用的合并模式相同。
在一些实施例中,除了隐式导出的运动信息被直接用于当前CU的预测样点生成的合并模式之外,在VVC中引入利用运动矢量差的合并模式(MMVD)。在发送跳过标志和合并标志之后立即用信号发送MMVD标志,以指定是否将MMVD模式用于CU。
在MMVD中,在选择合并候选之后,通过用信号发送的MVD信息进一步细化该合并候选。另外的信息包括合并候选标志、用于指定运动幅度的索引和用于指示运动方向的索引。在MMVD模式中,合并列表中的前两个候选之一被选择用作运动矢量(MV)基础。用信号发送合并候选标志以指定使用哪个候选。
距离索引指定运动幅度信息并且指示距起始点的预定义偏移。将偏移与起始MV的水平分量或垂直分量相加。距离索引与预定义偏移的关系在表1中被指定。
Figure BDA0003752996530000191
表1:距离索引与预定义偏移的关系
方向索引表示MVD相对于起始点的方向。方向索引可表示如表2所示的四个方向。应注意,MVD符号的含义可根据起始MV的信息而变化。当起始MV是单向预测MV或者在两个列表指向当前图片的同一侧(即,两个参考的POC均大于当前图片的POC,或均小于当前图片的POC)的情况下的双向预测MV时,表2中的符号指定与起始MV相加的MV偏移的符号。当起始MV是在两个MV指向当前图片的不同侧(即,一个参考的图片顺序计数(POC)大于当前图片的POC,且另一参考的POC小于当前图片的POC)的情况下的双向预测MV时,表2中的符号指定与起始MV的列表0MV分量相加的MV偏移的符号和针对列表1MV的符号具有相反值。
方向索引 00 01 10 11
X轴 + N/A N/A
Y轴 N/A N/A +
表2:由方向索引指定的MV偏移的符号
在一些实施例中,在VVC中,组合的基于子块的合并列表被用于基于子块的合并模式的信令,其中,组合的基于子块的合并列表包含基于子块的时间运动矢量预测(SbTMVP)候选和仿射合并候选两者。在下文中,它被称为子块合并模式。通过序列参数集(SPS)标志启用/禁用SbTMVP模式。如果启用SbTMVP模式,则添加SbTMVP预测因子作为基于子块的合并候选的列表的第一个条目,并且随后是仿射合并候选。基于子块的合并列表的大小在SPS中被用信号发送,并且基于子块的合并列表的最大允许大小在VVC中为5。
用于SbTMVP中的子CU尺寸被固定为8×8,并且如针对仿射合并模式所做,SbTMVP模式仅适用于宽度和高度两者均大于或等于8的CU。
额外SbTMVP合并候选的编码逻辑与其它合并候选的编码逻辑相同,即,对于前向预测帧(P)或双向预测帧(B)条带中的每个CU,执行额外率失真(RD)检查以决定是否使用SbTMVP候选。
在一些实施例中,VVC支持基于子块的时间运动矢量预测(SbTMVP)方法。类似于HEVC中的时间运动矢量预测(TMVP),SbTMVP使用同位图片中的运动场来改进针对当前图片中的CU的运动矢量预测和合并模式。由TMVP使用的同一同位图片被用于SbTMVP。SbTMVP与TMVP的不同之处在于以下两个主要方面。首先,TMVP预测CU级的运动,而SbTMVP预测子CU级的运动;其次,TMVP从同位图片中的同位块(同位块是相对于当前CU的右下块或中心块)提取时间运动矢量,而SbTMVP在从同位图片提取时间运动信息之前应用运动偏移,其中运动偏移是从来自当前CU的空间相邻块之一的运动矢量获得。
图5A和图5B是示出根据本公开的一些实施方式的VVC中的示例性SbTMVP过程的框图。在一些实施例中,通过应用来自空间相邻者的时间矢量(或称为运动偏移)并且缩放来自相应同位子CU的运动信息来导出子CU运动场。
图5A和图5B中示出了SbTMVP过程。SbTMVP用两个步骤预测当前CU内的子CU的运动矢量。在第一步骤中,检查图5A中的空间相邻者A1。如果A1具有使用同位图片作为其参考图片的运动矢量,则将此运动矢量选择为待应用的运动偏移。如果没有识别到这样的运动,则将运动偏移设置为(0,0)。
在第二步骤中,应用在步骤1中识别的运动偏移(即,与当前块的坐标相加),以从同位图片获得子CU级运动信息(运动矢量和参考索引),如图5b所示。图5B中的示例假设运动偏移被设置为块A1的运动。接着,对于每个子CU,其在同位图片中的对应块(覆盖中心样点的最小运动网格)的运动信息被用于导出子CU的运动信息。在识别出同位子CU的运动信息之后,以与HEVC的TMVP过程类似的方式将其转换为当前子CU的运动矢量和参考索引,其中应用时间运动缩放以将时间运动矢量的参考图片与当前CU的参考图片对齐。
在VVC中,组合的基于子块的合并列表被用于基于子块的合并模式的信令,其中,组合的基于子块的合并列表包含SbTMVP候选和仿射合并候选两者。通过序列参数集(SPS)标志启用/禁用SbTMVP模式。如果启用SbTMVP模式,则添加SbTMVP预测因子作为基于子块的合并候选的列表的第一个条目,并且随后是仿射合并候选。基于子块的合并列表的大小在SPS中被用信号发送,并且基于子块的合并列表的最大允许大小在VVC中为5。
用于SbTMVP中的子CU尺寸被固定为8×8,并且如针对仿射合并模式所做,SbTMVP模式仅适用于宽度和高度两者均大于或等于8的CU。
额外SbTMVP合并候选的编码逻辑与其它合并候选的编码逻辑相同,即,对于P或B条带中的每个CU,执行额外RD检查以决定是否使用SbTMVP候选。
在一些实施例中,在HEVC中,仅平移运动模型被应用于运动补偿预测(MCP)。而在现实世界中,存在许多类型的运动,例如,放大/缩小、旋转、投影运动和其他不规则运动。在VVC中,基于块的仿射变换运动补偿预测被应用。
图6A和图6B是示出根据本公开的一些实施方式的示例性基于控制点的仿射运动模型的框图。图6A示出了4参数仿射模型。图6B示出了6参数仿射模型。
如图6A和图6B所示,块的仿射运动场被两个控制点运动矢量(4参数)V0和V1或三个控制点运动矢量(6参数)V0、V1和V2的运动信息描述。
对于4参数仿射运动模型,块中样点位置(x,y)处的运动矢量被导出为:
Figure BDA0003752996530000211
对于6参数仿射运动模型,块中样点位置(x,y)处的运动矢量被导出为:
Figure BDA0003752996530000221
其中(mv0x,mv0y)是左上角控制点的运动矢量,(mv1x,mv1y)是右上角控制点的运动矢量,并且(mv2x,mv2y)是左下角控制点的运动矢量。W是块的宽度,H是块的高度。
图7是示出根据本公开的一些实施方式的针对子块的示例性仿射运动矢量预测(AMVP)的框图。为了简化运动补偿预测,应用基于块的仿射变换预测。为了导出每个4×4亮度子块的运动矢量,根据以上等式计算每个子块的中心样点的运动矢量(如图7中所示),并且将其四舍五入到1/16分数精度。然后,应用运动补偿插值滤波器以利用所导出的运动矢量生成每个子块的预测。色度分量的子块尺寸也被设置为4×4。4×4色度子块的MV被计算为四个对应的4×4亮度子块的MV的平均值。
如针对平移运动帧间预测所做,还存在两种仿射运动帧间预测模式:仿射合并模式和AMVP模式。
在一些实施例中,仿射合并预测模式(AF_MERGE模式)可被应用于宽度和高度都大于或等于8的CU。在此模式中,基于空间相邻CU的运动信息生成当前CU的控制点运动矢量(CPMV)。可存在至多五个CPMV预测因子(CPMVP)候选,并且用信号发送索引以指示用于当前CU的索引。以下三种类型的CPMVP候选被用于形成仿射合并候选列表:(1)从相邻CU的CPMV外推出的继承的仿射合并候选;(2)使用相邻CU的平移MV导出的构建的仿射合并CPMVP;(3)零MV。
图8是示出根据本公开的一些实施方式的继承的仿射运动预测因子的示例性位置的框图。在VVC中,存在从相邻块的仿射运动模型导出的最多两个继承的仿射候选,一个来自左侧相邻CU,且一个来自上方相邻CU。候选块在图8中示出。对于左侧的预测因子,扫描顺序是A0->A1,并且对于上方的预测因子,扫描顺序是B0->B1->B2。仅选择来自每一侧的第一个继承的候选。在两个继承的候选之间不执行裁剪检查。当识别到相邻仿射CU时,其控制点运动矢量被用于导出当前CU的仿射合并列表中的CPMVP候选。
图9是示出根据本公开的一些实施方式的示例性控制点运动矢量继承的框图。如图9中所示,如果相邻左下方块A在仿射模式下被编解码,则获得包含块A的CU的左上角、右上角和左下角的运动矢量v2、v3和v4。当块A用4参数仿射模型被编解码时,根据v2和v3计算当前CU的两个CPMV。在块A用6参数仿射模型被编解码的情况下,根据v2、v3和v4计算当前CU的三个CPMV。
图10是示出根据本公开的一些实施方式的用于构建的仿射合并模式的候选位置的示例性位置的框图。通过对每个控制点的相邻平移运动信息进行组合来构造构建的仿射候选。关于控制点的运动信息是从图10中所示的指定空间相邻者和时间相邻者导出的。CPMVk(k=1,2,3,4)表示第k个控制点。对于CPMV1,按顺序检查B2->B3->A2块,并使用第一可用块的MV。同样地,通过按顺序检查B1->B0块来导出CPMV2。通过按顺序检查A1->A0块来导出CPMV3。如果TMVP可用,则将其用作CPMV4
在获得四个控制点的MV之后,基于那些运动信息来构建仿射合并候选。控制点MV的以下组合被用于按顺序构建:
{CPMV1,CPMV2,CPMV3},{CPMV1,CPMV2,CPMV4},{CPMV1,CPMV3,CPMV4},{CPMV2,CPMV3,CPMV4},{CPMV1,CPMV2},{CPMV1,CPMV3}
3个CPMV的组合可被用于构建6参数仿射合并候选,并且2个CPMV的组合可被用于构建4参数仿射合并候选。为了避免运动缩放过程,如果控制点的参考索引不同,则丢弃控制点MV的相关组合。
在检查完继承的仿射合并候选和构建的仿射合并候选之后,如果列表仍然未满,则将零MV插入到列表的末尾。
在一些实施例中,在VVC中,当CU在合并模式下被编解码时,如果CU包含至少64个亮度样点(即,CU宽度乘以CU高度等于或大于64),且如果CU宽度和CU高度两者都小于128个亮度样点,则用信号发送额外标志以指示是否将组合帧间/帧内预测(CIIP)模式应用于当前CU。如其名称所示,CIIP预测将帧间预测信号与帧内预测信号进行组合。使用应用于常规合并模式的相同帧间预测过程来导出CIIP模式下的帧间预测信号Pinter;并且利用平面模式在常规帧内预测处理之后导出帧内预测信号Pintra。然后,使用加权平均对帧内预测信号和帧间预测信号进行组合,其中如下根据顶部相邻块和左侧相邻块(如图10所示的块A1和B1)的编解码模式计算权重值:
如果顶部相邻者可用并且被帧内编解码,则将isIntraTop设置为1,否则将isIntraTop设置为0;
如果左侧相邻者可用并且被帧内编码,则将isIntraLeft设置为1,否则将isIntraLeft设置为0;
如果(isIntraLeft+isIntraLeft)等于2,则将wt设置为3;
否则,如果(isIntraLeft+isIntraLeft)等于1,则将wt设置为2;
否则,将wt设置为1。
CIIP预测形成如下:
Figure BDA0003752996530000241
在一些实施例中,在VVC中,引入新的三角形分割模式用于帧间预测。三角形分割模式仅被应用于8×8或更大并且在跳过模式或合并模式下被编解码的CU。对于满足这些条件且合并标志为开启的CU,用信号发送CU级标志以指示是否应用三角形分割模式。
当使用此模式时,使用对角线拆分或反对角线拆分,将CU均匀拆分成两个三角形分区。CU中的每个三角形分区使用其自己的运动进行帧间预测;对于每个分区仅允许单向预测,即,每个分区具有一个运动矢量和一个参考索引。应用单向预测运动约束以确保在三角形预测模式下,CU仅需要两个运动补偿预测,这与常规双向预测相同。
如果CU级标志指示当前CU是使用三角形分割模式被编解码,则用信号发送标志以指示三角形分割方向(即,对角线或反对角线)。然后,分别针对两个分区中的每一个用信号发送索引,以指示用于每个三角形分区的合并运动矢量候选。在预测每个三角形分区之后,使用具有自适应权重的混合处理来调整沿着对角线或反对角线边缘的样点值。在预测过程之后,变换和量化过程将被应用于整个CU。值得一提的是,使用三角形分割模式预测的CU的运动场以4×4为单位进行存储。
在一些实施例中,帧内块复制(IBC)是在HEVC关于屏幕内容编解码(SCC)的扩展简档中采用的工具。众所周知,它显著提高了屏幕内容视频材料的编解码效率。特别地,IBC可从当前图片的重建区域高效地生成预测因子。在块级用信号发送IBC模式。在编码器处执行块匹配(BM),以找到针对每个CU的最佳块矢量(或运动矢量)。这里,块矢量被用于指示从当前块到已经在当前图片内重建的参考块的位移。经IBC编解码的CU的亮度块矢量具有整数精度。对于某些视频格式(诸如420),色度块矢量可通过舍入运算从亮度块矢量导出,其结果也为整数精度。当与AMVR(自适应运动矢量分辨率)组合时,IBC模式可在1像素运动矢量精度与4像素运动矢量精度之间切换。除帧内预测模式或帧间预测模式之外,经IBC编解码的CU还被视为第三预测模式。IBC模式适用于宽度和高度均小于或等于64个亮度样点的CU。
在CU级,IBC模式利用标志被用信号发送,并且其可如下被用信号发送为IBC AMVP模式或IBC跳过/合并模式:
IBC跳过/合并模式:合并候选索引被用于指示列表中来自相邻候选IBC编解码块的块矢量中的哪一个用于预测当前块。合并列表由至多两个空间候选(A1和B1)和至多两个HMVP候选组成。
对于小于或等于4×4的经IBC编解码的CU,仅使用HMVP候选来构建IBC合并候选列表。
在IBC AMVP模式中,块矢量差按照与运动矢量差相同的方式被编解码。块矢量预测方法使用两个候选作为预测因子,并且使用与IBC合并列表相同的构建过程来构建IBCAMVP候选列表。
在一些实施例中,在基于历史的运动矢量预测(HMVP)中,HMVP候选被定义为先前编码块的运动信息。在编码/解码过程期间维持具有多个HMVP候选的表(在本文档的其余部分中称为历史MV表)。当遇到新条带或每个CTU行的第一个CTU时,表被清空。每当存在非子块帧间编解码CU时,将相关联运动信息添加到表的最后条目作为新HMVP候选。在VVC中,HMVP表大小被设置为6,其指示可将至多6个基于历史的MVP(HMVP)候选添加到表。当将新的运动候选插入到表时,利用受约束的先进先出(FIFO)规则,其中首先应用冗余检查(即MV裁剪)以找到表中是否存在相同的HMVP。如果找到,则从表中去除相同的HMVP,并且之后将所有HMVP候选向前(朝向第一个条目)移动。值得注意的是,存储在最后一个条目中的MVP是最新的MVP,并且存储在第一个条目中的MVP是最旧的MVP。
如先前章节中所说明的,HMVP候选可在TMVP候选之后被用于合并候选列表构建过程中。表中的HMVP候选以从HMVP表中的最后一个条目到第一个条目的顺序被检查。对前两个HMVP候选应用冗余检查,其中这两个HMVP候选中的每一个与左侧空间合并候选A1和上方空间合并候选B1进行比较。换句话说,当插入HMVP候选时,相同MV候选检查的次数至多4次。一旦可用合并候选的总数达到最大允许的合并候选减1,就终止来自HMVP的合并候选列表构建过程。
HMVP候选也可被用于AMVP候选列表构建过程中。表中的HMVP候选以从HMVP表中的第一个条目到最后一个条目的顺序被检查,并且在TMVP候选之后被插入到候选列表。冗余检查不被应用于HMVP候选。
如先前章节中所说明的,HMVP候选可被用于IBC合并候选列表构建过程以及IBCAMVP列表构建中。表中的HMVP候选以从HMVP表中的最后一个条目到第一个条目的顺序被检查,并且在TMVP候选之后被插入到候选列表。对第一个HMVP候选应用冗余检查,并且所检查的HMVP候选仅需要与左侧空间合并候选和上方空间合并候选进行比较。换句话说,当插入HMVP候选时,相同MV候选检查的次数至多2次。
在一些实施例中,使用用于并行运动估计的运动估计区域(MER)。为了加速编码过程,可并行地执行运动估计,由此同时导出针对给定区域内的所有预测单元的运动矢量。从空间邻域导出合并候选可能干扰并行处理,这是因为一个预测单元无法从邻近PU导出运动参数,直到其相关联的运动估计完成为止。为了减轻编解码效率与处理延迟之间的权衡,HEVC定义了运动估计区域(MER),其尺寸使用“log2_parallel_merge_level_minus2”语法元素在图片参数集中被用信号发送。当定义MER时,落入同一区域中的合并候选被标记为不可用,因此不在列表构建中考虑。
在一些实施例中,构建合并候选列表的方式引入了相邻块之间的相依性。特别是在嵌入式编码器实现中,相邻块的运动估计阶段通常并行执行或至少以流水线执行来增加吞吐量。对于AMVP,这不是大问题,因为MVP仅被用于对由运动搜索找到的MV进行差分编解码。然而,针对合并模式的运动估计阶段将通常仅由候选列表构建以及基于代价函数选择哪个候选的决策组成。由于上述相邻块之间的依赖性,相邻块的合并候选列表不能被并行生成,并且表现出了并行编码器设计的瓶颈。因此,引入了使合并相关模式更并行友好的几种方法。在下面的部分中,PMER的宽度和高度分别表示为W和H。
用于并行运动估计区域(PMER)的SbTMVP
在本公开的第一实施例中,当用于导出SbTMVP的TV的相邻块的位置位于与当前块相同的PMER内时,从空间块导出的TV被认为不可用,并且使用默认TV(例如,零矢量)。
在本公开的第二实施例中,用于导出SbTMVP的时间矢量(TV)的空间相邻块的导出被修改以导出预定义的并行运动估计区(PMER)外部的块。可利用不同的方案来定位用于TV导出的空间相邻块。下面示出了几个示例。实施例不限于所示示例。将相邻块的位置导出为包含位于下面所示的位置之一处的样点的块。在所示出的示例中,当前亮度编码块的左上样点相对于当前图片的左上亮度样点的位置被表示为(xCb,yCb);位置(xA0,yA0)、(xA1,yA1)、(xA2,yA2)、(xB0,yB0)、(xB1,yB1)、(xB2,yB2)是被相邻块覆盖的样点位置;两个变量cbWidth和cbHeight指定亮度编码块的宽度和高度。
1)(xA0,yA0)=(xCb/W*W-1,yCb+cbHeight)
2)(xA0,yA0)=(xCb/W*W-1,(yCb+cbHeight)/H*H)
3)(xA1,yA1)=(xCb/W*W-1,yCb+cbHeight-1)
4)(xA1,yA1)=(xCb/W*W-1,(yCb+cbHeight)/H*H-1)
5)(xA2,yA2)=(xCb/W*W-1,yCb)
6)(xA2,yA2)=(xCb/W*W-1,yCb/H*H)
7)(xB0,yB0)=(xCb+cbWidth,yCb/H*H-1)
8)(xB0,yB0)=((xCb+cbWidth)/W*W,yCb/H*H-1)
9)(xB1,yB1)=(xCb+cbWidth-1,yCb/H*H-1)
10)(xB1,yB1)=((xCb+cbWidth)/W*W-1,yCb/H*H-1)
11)(xB2,yB2)=(xCb/W*W-1,yCb/H*H-1)
12)(xB2,yB2)=(xCb/W*W-1,yCb-1)
13)(xB2,yB2)=(xCb-1,yCb/H*H-1)
图11是示出根据本公开的一些实施方式的用于导出TV的空间相邻块的示例性位置的框图。图11示出了用于导出针对CU 6的SbTMVP的TV的相邻块A1根据使用上面等式1导出的位置而位于MER外部的示例。在当前VVC中,用于导出针对CU 6的SbTMVP的TV的空间块取决于CU 5的重建。因此,这种依赖性对于并行运动搜索是有问题的。
在本公开的第三实施例中,用于导出针对SbTMVP的时间矢量(TV)的空间相邻块被修改为当前块的上边界处的块。对于一些硬件编码器设计,位于当前块的上方位置的相邻块(例如,图10中的块B0、B1和B2)的MV已经被重建并且可用。因此,与使用当前块左侧的相邻块(例如,块A1)相比,从上方相邻块导出时间矢量对于并行运动估计具有较少问题。可利用不同的方案来定位用于TV导出的一个空间相邻块。下面示出了几个示例。实施例不限于所示示例。相邻块的位置被导出为包含位于下面所示的位置之一处的样点的块:
1)(xB0,yB0)=(xCb+cbWidth,yCb-1)
2)(xB1,yB1)=(xCb+cbWidth-1,yCb-1)
3)(xB2,yB2)=(xCb-1,yCb-1)
在本公开的第四实施例中,HMVP表的第一个条目中的HMVP候选被用于导出针对SbTMVP的TV。
在本公开的第五实施例中,从同位图片中的块导出的时间运动矢量被用于导出针对SbTMVP的TV。
用于MER的IBC合并
在本公开的第六实施例中,当用于导出IBC合并候选的相邻块的位置位于与当前块相同的PMER内时,所导出的IBC合并候选被视为不可用。
图12是示出根据本公开的一些实施方式的IBC空间候选的示例性位置的框图。图12是根据预定义顺序检查两个相邻块(A1,B1)以导出针对当前块(CU1)的IBC合并候选的示例。由于所有相邻的两个块都位于不同的PMER中,因此两个相邻块被认为可用。
图13是示出根据本公开的一些实施方式的IBC空间候选的示例性位置的框图。在如图13所示的另一示例中,CU5的相邻块A1位于不同的MER中,因此它被认为可用。相邻块B1位于同一MER内,并且被认为不可用。
在本公开的第七实施例中,用于导出IBC合并候选的空间相邻块的导出被修改以导出在预定义的并行运动估计区域(PMER)外部的块。相邻块的位置被导出为包含位于下面所示的位置之一处的样点的块:
1)(xA0,yA0)=(xCb/W*W-1,yCb+cbHeight)
2)(xA0,yA0)=(xCb/W*W-1,(yCb+cbHeight)/H*H)
3)(xA1,yA1)=(xCb/W*W-1,yCb+cbHeight-1)
4)(xA1,yA1)=(xCb/W*W-1,(yCb+cbHeight)/H*H–1)
5)(xA2,yA2)=(xCb/W*W-1,yCb)
6)(xA2,yA2)=(xCb/W*W-1,yCb/H*H)
7)(xB0,yB0)=(xCb+cbWidth,yCb/H*H-1)
8)(xB0,yB0)=((xCb+cbWidth)/W*W,yCb/H*H-1)
9)(xB1,yB1)=(xCb+cbWidth-1,yCb/H*H-1)
10)(xB1,yB1)=((xCb+cbWidth)/W*W-1,yCb/H*H-1)
11)(xB2,yB2)=(xCb/W*W-1,yCb/H*H-1)
12)(xB2,yB2)=(xCb/W*W-1,yCb-1)
13)(xB2,yB2)=(xCb-1,yCb/H*H-1)
图14和图15是示出根据本公开的一些实现方式的非相邻空间候选的示例性位置的框图。在如图14和图15中所示的一个示例中,位于紧邻PMER区域的上方边界的空间相邻块被用于导出IBC合并候选。在示例中,使用上面的位置等式9。
在图15中,位于紧邻合并区域的左侧边界的空间相邻块被用于导出IBC合并候选。在示例中,使用上面的位置等式3。
在本公开的第八实施例中,当将HMVP候选插入到IBC合并候选列表中时,按照从HMVP表中的第一个条目到最后一个条目的顺序检查表中的HMVP候选。
用于并行运动估计区域(PMER)的CIIP
在本公开的第九实施例中,当用于导出针对CIIP编码块的权重(例如,wt)的相邻块的位置与当前块位于相同的PMER内时,该相邻块被认为不可用。
在本公开的第十实施例中,用于导出针对CIIP编码块的权重的空间相邻块的导出被修改以导出在预定义的并行运动估计区域(PMER)外部的块。可利用不同的方案来定位用于权重确定的空间相邻块。下面示出了几个示例。实施例不限于所示示例。将相邻块的位置被导出为包含位于下面所示的位置之一处的样点的块。在所示的示例中,当前亮度编码块的左上方样点相对于当前图片的左上方亮度样点的位置被表示为(xCb,yCb);位置(xA0,yA0)、(xA1,yA1)、(xA2,yA2)、(xB0,yB0)、(xB1,yB1)、(xB2,yB2)是被相邻块覆盖的样点位置;两个变量cbWidth和cbHeight指定亮度编码块的宽度和高度。
1)(xA0,yA0)=(xCb/W*W-1,yCb+cbHeight)
2)(xA0,yA0)=(xCb/W*W-1,(yCb+cbHeight)/H*H)
3)(xA1,yA1)=(xCb/W*W-1,yCb+cbHeight-1)
4)(xA1,yA1)=(xCb/W*W-1,(yCb+cbHeight)/H*H-1)
5)(xA2,yA2)=(xCb/W*W-1,yCb)
6)(xA2,yA2)=(xCb/W*W-1,yCb/H*H)
7)(xB0,yB0)=(xCb+cbWidth,yCb/H*H-1)
8)(xB0,yB0)=((xCb+cbWidth)/W*W,yCb/H*H-1)
9)(xB1,yB1)=(xCb+cbWidth-1,yCb/H*H-1)
10)(xB1,yB1)=((xCb+cbWidth)/W*W-1,yCb/H*H-1)
11)(xB2,yB2)=(xCb/W*W-1,yCb/H*H-1)
12)(xB2,yB2)=(xCb/W*W-1,yCb-1)
13)(xB2,yB2)=(xCb-1,yCb/H*H-1)
图16是示出根据本公开的一些实施方式的示例性过程1600的流程图,通过该过程1600,视频编解码器实现在当前编码单元/块和用于确定当前合并候选的空间相邻块在同一运动估计区域(MER)中时确定当前合并候选替代的技术。为便于描述,将过程1600描述为由视频解码器(例如,图3的视频解码器30)执行。
第一实施例:
在一些实施例中,视频解码器30从比特流接收与编码单元对应的视频数据(1610),然后从视频数据接收定义运动估计区域(MER)的第一语法元素(1620)。
视频解码器30从视频数据接收多个第二语法元素,多个第二语法元素指示编码单元是否处于基于子块的时间运动矢量预测(SbTMVP)模式(1630)。
在一些实施例中,多个第二语法元素包括指示编码单元是否处于子块合并模式的第三语法元素和指示使用哪个基于子块的合并候选来重建编码单元的第四语法元素。第三语法元素是“merge_subblock_flag”,并且第四语法元素是“merge_subblock_idx”。
根据确定编码单元处于子块合并模式,视频解码器30接收针对编码单元的从相邻块导出的多个基于子块的合并候选。每个子块合并候选由多个相邻块构建。相邻块包括空间相邻块和时间相邻块。在一些实施例中,多个基于子块的合并候选包括SbTMVP候选和仿射合并候选两者。
根据确定编码单元处于SbTMVP模式,视频解码器30确定编码单元和用于确定编码单元的时间矢量的空间相邻块两者是否在同一MER内(1640)。
根据确定空间相邻块为SbTMVP候选,编码单元处于SbTMVP模式。
根据确定编码单元和空间相邻块两者在同一MER内,视频解码器30将编码单元的时间矢量设置为零(1650)。
第二实施例:
在一些实施例中,视频解码器30从比特流接收与编码单元对应的视频数据,然后从视频数据接收定义运动估计区域(MER)的第一语法元素。视频解码器30从视频数据接收多个第二语法元素,其中多个第二语法元素指示编码单元是否处于基于子块的时间运动矢量预测(SbTMVP)模式。根据确定编码单元处于SbTMVP模式,视频解码器30确定编码单元和用于确定编码单元的时间矢量的第一空间相邻块两者是否在同一MER内。根据确定编码单元和第一空间相邻块两者在同一MER内,视频解码器30选择在MER外部的第二空间相邻块作为对第一空间相邻块的替代,以确定编码单元的时间矢量。
在一些实施例中,在MER外部的第二空间相邻块是在第一空间相邻块的左侧位置处的空间相邻块。
在一些实施例中,在MER外部的第二空间相邻块是在第一空间相邻块的上方位置处的空间相邻块。
在一些实施例中,在MER外部的第二空间相邻块是在第一空间相邻块的左上方置处的空间相邻块。
第三实施例:
在一些实施例中,视频解码器30从比特流接收与编码单元对应的视频数据。然后视频解码器30从视频数据接收定义运动估计区(MER)的第一语法元素。视频解码器30从视频数据接收多个第二语法元素,其中多个第二语法元素指示编码单元是否处于合并模式。根据确定编码单元处于合并模式,视频解码器30接收针对编码单元的多个合并候选,并且确定编码单元和用于从多个合并候选确定第一合并候选的第一空间相邻块两者是否在同一MER内。根据确定编码单元和第一空间相邻块两者在同一MER内,视频解码器30从多个合并候选选择第二合并候选作为对第一合并候选的替代。
在一些实施例中,合并模式是帧内块复制(IBC)合并。
在一些实施例中,合并模式是组合帧间和帧内预测(CIIP)合并。
第四实施例:
在一些实施例中,视频解码器30从比特流接收与编码单元对应的视频数据。然后视频解码器30从视频数据接收定义运动估计区(MER)的第一语法元素。视频解码器30从视频数据接收多个第二语法元素,其中多个第二语法元素指示编码单元是否处于合并模式。根据确定编码单元处于合并模式,视频解码器30确定编码单元和用于确定合并候选的第一空间相邻块两者是否在同一MER内。根据确定编码单元和第一空间相邻块两者在同一MER内,视频解码器30选择在MER外部的第二空间相邻块作为对第一空间相邻块的替代作为合并候选。
在一些实施例中,在MER外部的第二空间相邻块是在针对相邻MER的编码块的合并候选位置之一处的空间相邻块。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合实施。如果以软件实施,则功能可作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输,并且由基于硬件的处理单元执行。计算机可读介质可包括计算机可读存储介质,其对应于诸如数据存储介质的有形介质,或对应于包括促进将计算机程序从一处传送到另一处(例如,根据通信协议)的任何介质的通信介质。以此方式,计算机可读介质通常可对应于(1)非易失性的有形计算机可读存储介质、或(2)通信介质,诸如信号或载波。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以取回用于实现本申请中描述的实现方式的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包括计算机可读介质。
在本文的实施方式的描述中使用的术语仅用于描述特定实施方式的目的,并不旨在限制权利要求的范围。如在实施方式的描述和所附权利要求中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还将理解,如本文使用的术语“和/或”是指并且涵盖相关联的所列项目中的一个或多个的任何和所有可能的组合。将进一步理解,术语“包括”和/或“包括…的”当在本说明书中使用时,指定存在所陈述的特征、元件和/或组件,但不排除存在或添加一个或多个其它特征、元件、组件和/或其群组。
还将被理解,尽管本文可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。例如,在不脱离实施方式的范围的情况下,第一电极可被称为第二电极,并且类似地,第二电极可被称为第一电极。第一电极和第二电极都是电极,但它们不是相同的电极。
贯穿本说明书对单数或复数形式的“一个示例”、“示例”、“示例性示例”等的引用表示结合示例描述的一个或多个特定特征、结构或特性被包括在本公开的至少一个示例中。因此,贯穿本说明书在各个地方以单数或复数形式出现的短语“在一个示例中”或“在示例中”、“在示例性示例中”等不一定都指代相同的示例。此外,一个或多个示例中的特定特征、结构或特性可以以任何合适的方式组合。
本申请的描述已经出于说明和描述的目的被呈现,并且不旨在穷举或限于所公开的形式的发明。受益于在前面的描述和相关联的附图中呈现的教导,许多修改、变化和替代实施方式对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理、实际应用,并且使本领域的其它技术人员能够理解本发明的各种实施方式,并且最好地利用基本原理和具有适合于预期的特定用途的各种修改的各种实施方式。因此,将理解,权利要求的范围不限于所公开的实施方式的具体示例,并且修改和其它实施方式旨在被包括在所附权利要求的范围内。

Claims (17)

1.一种对视频数据进行解码的方法,包括:
从比特流接收与编码单元对应的视频数据;
从所述视频数据接收定义运动估计区域MER的第一语法元素;
从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于基于子块的时间运动矢量预测SbTMVP模式;
根据确定所述编码单元处于所述SbTMVP模式:
确定所述编码单元和用于确定所述编码单元的时间矢量的空间相邻块两者是否在同一MER内;并且
根据确定所述编码单元和所述空间相邻块两者在同一MER内:
将所述编码单元的所述时间矢量设置为零。
2.根据权利要求1所述的对视频数据进行解码的方法,其中所述多个第二语法元素包括指示所述编码单元是否处于子块合并模式的第三语法元素和指示使用哪个基于子块的合并候选来重建所述编码单元的第四语法元素。
3.根据权利要求2所述的对视频数据进行解码的方法,其中,所述第三语法元素是“merge_subblock_flag”,并且所述第四语法元素是“merge_subblock_idx”。
4.根据权利要求2所述的对视频数据进行解码的方法,其中从所述视频数据接收所述多个第二语法元素还包括:
根据确定所述编码单元处于所述子块合并模式,接收针对所述编码单元的从相邻块导出的多个基于子块的合并候选。
5.根据权利要求4所述的对视频数据进行解码的方法,其中所述多个基于子块的合并候选包括SbTMVP候选和仿射合并候选两者。
6.根据权利要求5所述的对视频数据进行解码的方法,还包括:根据确定所述空间相邻块为SbTMVP候选,所述编码单元处于所述SbTMVP模式。
7.一种对视频数据进行解码的方法,包括:
从比特流接收与编码单元对应的视频数据;
从所述视频数据接收定义运动估计区域MER的第一语法元素;
从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于基于子块的时间运动矢量预测SbTMVP模式;
根据确定所述编码单元处于所述SbTMVP模式:
确定所述编码单元和用于确定所述编码单元的时间矢量的第一空间相邻块两者是否在同一MER内;并且
根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:
选择在所述MER外部的第二空间相邻块作为对所述第一空间相邻块的替代,以确定所述编码单元的所述时间矢量。
8.根据权利要求7所述的对视频数据进行解码的方法,其中:在所述MER外部的所述第二空间相邻块是在所述第一空间相邻块的左侧位置处的空间相邻块。
9.根据权利要求7所述的对视频数据进行解码的方法,其中:在所述MER外部的所述第二空间相邻块是位于所述第一空间相邻块的上方位置处的空间相邻块。
10.根据权利要求7所述的对视频数据进行解码的方法,其中:在所述MER外部的所述第二空间相邻块是在所述第一空间相邻块的左上方位置处的空间相邻块。
11.一种对视频数据进行解码的方法,包括:
从比特流接收与编码单元对应的视频数据;
从所述视频数据接收定义运动估计区域MER的第一语法元素;
从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于合并模式;
根据确定所述编码单元处于所述合并模式:
接收针对所述编码单元的多个合并候选;
确定所述编码单元和用于从所述多个合并候选确定第一合并候选的第一空间相邻块两者是否在同一MER内;并且
根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:
从所述多个合并候选选择第二合并候选作为对所述第一合并候选的替代。
12.根据权利要求11所述的对视频数据进行解码的方法,其中所述合并模式是帧内块复制IBC合并。
13.根据权利要求11所述的对视频数据进行解码的方法,其中所述合并模式是组合帧间和帧内预测CIIP合并。
14.一种对视频数据进行解码的方法,包括:
从比特流接收与编码单元对应的视频数据;
从所述视频数据接收定义运动估计区域MER的第一语法元素;
从所述视频数据接收多个第二语法元素,其中所述多个第二语法元素指示所述编码单元是否处于合并模式;
根据确定所述编码单元处于所述合并模式:
确定所述编码单元和用于确定合并候选的第一空间相邻块两者是否在同一MER内;并且
根据确定所述编码单元和所述第一空间相邻块两者在同一MER内:
选择在所述MER外部的第二空间相邻块作为对所述第一空间相邻块的替代作为所述合并候选。
15.根据权利要求14所述的对视频数据进行解码的方法,其中:在所述MER外部的所述第二空间相邻块是在针对相邻MER的编码块的合并候选位置之一处的空间相邻块。
16.一种电子装置,包括:
一个或多个处理单元;
存储器,被耦接到所述一个或多个处理单元;以及
多个程序,被存储在所述存储器中,所述多个程序在由所述一个或多个处理单元执行时,使所述电子装置执行如权利要求1至15所述的方法。
17.一种非易失性计算机可读存储介质,存储用于由具有一个或多个处理单元的电子装置执行的多个程序,其中所述多个程序在由所述一个或多个处理单元执行时使所述电子装置执行如权利要求1至15所述的方法。
CN202080093766.2A 2019-12-24 2020-12-23 关于合并候选的运动估计区域 Pending CN115004702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211167139.6A CN115514971A (zh) 2019-12-24 2020-12-23 对视频数据进行编码的方法和装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962953421P 2019-12-24 2019-12-24
US62/953,421 2019-12-24
PCT/US2020/066815 WO2021133899A1 (en) 2019-12-24 2020-12-23 Motion estimation region for the merge candidates

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211167139.6A Division CN115514971A (zh) 2019-12-24 2020-12-23 对视频数据进行编码的方法和装置

Publications (1)

Publication Number Publication Date
CN115004702A true CN115004702A (zh) 2022-09-02

Family

ID=76575129

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080093766.2A Pending CN115004702A (zh) 2019-12-24 2020-12-23 关于合并候选的运动估计区域
CN202211167139.6A Pending CN115514971A (zh) 2019-12-24 2020-12-23 对视频数据进行编码的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211167139.6A Pending CN115514971A (zh) 2019-12-24 2020-12-23 对视频数据进行编码的方法和装置

Country Status (4)

Country Link
US (1) US20220329846A1 (zh)
EP (1) EP4082202A4 (zh)
CN (2) CN115004702A (zh)
WO (1) WO2021133899A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005616A1 (ko) * 2022-07-01 2024-01-04 엘지전자 주식회사 영상 인코딩/디코딩 방법 및 장치, 그리고 비트스트림을 저장한 기록 매체

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101895429B1 (ko) * 2014-10-07 2018-09-05 삼성전자주식회사 뷰 병합 예측을 이용하여 영상을 부호화 또는 복호화 하는 방법 및 그 장치
US11477477B2 (en) * 2015-01-26 2022-10-18 Qualcomm Incorporated Sub-prediction unit based advanced temporal motion vector prediction
US10230980B2 (en) * 2015-01-26 2019-03-12 Qualcomm Incorporated Overlapped motion compensation for video coding
US20210136400A1 (en) * 2016-11-29 2021-05-06 Mediatek Inc. Method and apparatus of merge mode derivation for video coding
US20180310017A1 (en) * 2017-04-21 2018-10-25 Mediatek Inc. Sub-prediction unit temporal motion vector prediction (sub-pu tmvp) for video coding
WO2019050115A1 (ko) * 2017-09-05 2019-03-14 엘지전자(주) 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
CN118042154A (zh) * 2018-01-25 2024-05-14 三星电子株式会社 使用基于子块的运动补偿进行视频信号处理的方法和装置
US11539958B2 (en) * 2018-07-17 2022-12-27 Lg Electronics Inc. Method for predicting subblock-based temporal motion vector and apparatus therefor
US11876957B2 (en) * 2018-12-18 2024-01-16 Lg Electronics Inc. Method and apparatus for processing video data
US11240524B2 (en) * 2019-11-27 2022-02-01 Mediatek Inc. Selective switch for parallel processing

Also Published As

Publication number Publication date
EP4082202A4 (en) 2023-05-10
WO2021133899A1 (en) 2021-07-01
US20220329846A1 (en) 2022-10-13
EP4082202A1 (en) 2022-11-02
CN115514971A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN116847096B (zh) 视频编码方法、计算装置、存储介质和计算机程序产品
US20240163468A1 (en) Methods and apparatus of video coding using subblock-based temporal motion vector prediction
CN114363611B (zh) 用于视频编码的方法和计算设备
CN113966614A (zh) 具有运动矢量差的合并模式的改进
US20220329846A1 (en) Motion estimation region for the merge candidates
CN113940081A (zh) 使用利用光流的预测细化的视频编解码的方法和装置
CN115004706A (zh) 关于变换和系数信令的方法和装置
CN115336272A (zh) 基于空间邻域的仿射运动导出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination