CN117546467A - 使用未经细化的运动向量来执行解码器侧运动向量推导 - Google Patents
使用未经细化的运动向量来执行解码器侧运动向量推导 Download PDFInfo
- Publication number
- CN117546467A CN117546467A CN202280044142.0A CN202280044142A CN117546467A CN 117546467 A CN117546467 A CN 117546467A CN 202280044142 A CN202280044142 A CN 202280044142A CN 117546467 A CN117546467 A CN 117546467A
- Authority
- CN
- China
- Prior art keywords
- block
- current block
- motion vector
- motion
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 571
- 239000013598 vector Substances 0.000 title claims abstract description 444
- 238000009795 derivation Methods 0.000 title claims abstract description 40
- 230000015654 memory Effects 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims description 229
- 238000003860 storage Methods 0.000 claims description 36
- 230000002146 bilateral effect Effects 0.000 claims description 24
- 239000013074 reference sample Substances 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 238000007670 refining Methods 0.000 claims description 7
- 239000000523 sample Substances 0.000 description 43
- 238000012545 processing Methods 0.000 description 41
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 38
- 230000008569 process Effects 0.000 description 36
- 241000023320 Luma <angiosperm> Species 0.000 description 31
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 31
- 238000013139 quantization Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 22
- 238000005192 partition Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 238000000638 solvent extraction Methods 0.000 description 19
- 230000002123 temporal effect Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 16
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 239000011449 brick Substances 0.000 description 8
- 101150114515 CTBS gene Proteins 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013138 pruning Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 101100025317 Candida albicans (strain SC5314 / ATCC MYA-2876) MVD gene Proteins 0.000 description 4
- 101150079299 MVD1 gene Proteins 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种用于对视频数据进行解码的设备包括:存储器,其被配置为存储视频数据;以及一个或多个处理器,其在电路中实现并且被配置为:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用在确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
Description
本申请要求享受于2022年6月27日递交的美国专利申请No.17/809,167以及于2021年6月30日递交的美国临时申请No.63/217,164的优先权,上述申请的全部内容据此通过引用的方式并入。于2022年6月27日递交的美国专利申请No.17/809,167要求享受于2022年6月30日递交的美国临时申请No.63/217,164的权益。
技术领域
本公开内容涉及视频译码,其包括视频编码和视频解码。
背景技术
数字视频能力可以被并入到各种各样的设备,其包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型计算机或台式计算机、平板计算机、电子书阅读器、数字相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电电话(所谓的“智能电话”)、视频电话会议设备、视频流式传输设备等。数字视频设备实现视频译码技术,诸如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4(部分10,高级视频译码(AVC)、ITU-T H.265/高效率视频译码(HEVC)、ITU-T H.266/多功能视频译码(VVC)所定义的标准和此类标准的扩展以及专有视频编解码器/格式(诸如开放媒体联盟开发的AOMedia Video 1(AV1))中描述的那些技术。通过实现这样的视频译码技术,视频设备可以更加高效地发送、接收、编码、解码和/或存储数字视频信息。
视频译码技术包括空间(图片内(intra-picture))预测和/或时间(图片间(inter-picture))预测以减少或去除在视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频图片或视频图片的一部分)可以被分割为视频块,视频块还可以被称为译码树单元(CTU)、译码单元(CU)和/或译码节点。在图片的经帧内译码(I)的切片中的视频块是使用相对于相同图片中的相邻块中的参考样本的空间预测来编码的。在图片的经帧间译码(P或B)的切片中的视频块可以使用相对于相同图片中的相邻块中的参考样本的空间预测或者相对于其它参考图片中的参考样本的时间预测。图片可以被称为帧,并且参考图片可以被称为参考帧。
发明内容
总体而言,本公开内容描述了涉及解码器侧运动向量推导技术(例如,模板匹配、双边匹配、解码器侧MV细化、双向光流)的技术。这些技术可以应用于未来视频译码标准中的现有视频编解码器中的任何一者(诸如ITU-T H.265/HEVC(高效率视频译码)、ITU-TH.266/VVC(多功能视频译码)、基本视频译码(EVC)),或由AOMedia Video 1(AV1)编解码器执行。
在一个示例中,一种对视频数据进行解码的方法,该方法包括:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块来对当前块进行解码。
在另一示例中,一种用于对视频数据进行解码的设备包括:存储器,其被配置为存储视频数据;以及一个或多个处理器,其在电路中实现并且被配置为:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
在另一示例中,一种计算机可读存储介质在其上存储有指令,所述指令当被执行时使得处理器进行以下操作:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
在另一示例中,一种用于对视频数据进行解码的设备包括:用于确定确定性边界框的单元,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);用于根据DMVD使用确定性边界框内的参考样本来推导用于当前块的运动向量的单元;用于使用运动向量来形成预测块的单元;以及用于使用预测块对当前块进行解码的单元。
在附图和以下描述中阐述了一个或多个示例的细节。根据说明书、附图和权利要求,其它特征、目的和优点将是显而易见的。
附图说明
图1是示出可以执行本公开内容的技术的示例视频编码和解码系统的框图。
图2A和图2B是示出用于在合并模式和高级运动向量预测(AMVP)模式下对运动向量进行译码的示例空间相邻运动向量候选的概念图。
图3A和图3B是示出时间运动向量预测技术的概念图。
图4是示出用于运动向量译码的模板匹配预测的概念图。
图5是示出与包括当前块的当前图片具有不同时间距离(TD)的参考图片中的块的运动向量差(MVD)值的概念图。
图6是示出两个MVD被镜像而不考虑时间距离的示例的概念图。
图7是示出双边匹配搜索范围中的3x3正方形搜索模式的示例的概念图。
图8是示出使用解码器侧运动向量细化(DMVR)来对运动向量进行细化的示例的概念图。
图9是示出可以执行本公开内容的技术的示例视频编码器的框图。
图10是示出可以执行本公开内容的技术的示例视频解码器的框图。
图11是示出示例与运动向量差合并(MMVD)搜索点的概念图。
图12是示出根据本公开内容的技术的用于对当前块进行编码的示例方法的流程图。
图13是示出根据本公开内容的技术的用于对当前块进行解码的示例方法的流程图。
图14是示出用于使用根据本公开内容的技术推导和/或细化的运动向量对当前数据块进行译码的示例方法的流程图。
具体实施方式
视频译码标准包括ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(还称为ISO/IECMPEG-4AVC),包括其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。
此外,高效率视频译码(HEVC)或ITU-T H.265(包括其范围扩展、多视图扩展(MV-HEVC)和可缩放扩展(SHVC))已经由ITU-T视频译码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)的视频译码联合协作组(JCT-VC)以及3D视频译码扩展开发联合协作组(JCT-3V)开发。HEVC规范可从phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip获得。
ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)继续研究对具有压缩能力的未来视频译码技术进行标准化的潜在需求,该压缩能力显著超过HEVC标准(包括其用于屏幕内容译码和高动态范围译码的当前扩展和近期扩展)的压缩能力。这些小组在称为联合视频探索小组(JVET)的联合协作努力中共同致力于这项探索活动,以评估由他们在该领域的专家提出的压缩技术设计。
参考软件(即,VVC Test Model 10(VTM 10.0))可从vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM获得。以下文档可在jvet-experts.org/doc_end_user/documents/20_Teleconference/wg11/JVET-T2001-v1.zip处获得:ITU-TH.266/多功能视频译码(VVC)规范,Bross等人,ITU-TSG 16WP 3和ISO/IEC JTC 1/SC 29的联合视频专家组(JVET),第20次会议,电话会议,2020年10月7-16日,文档JVET-T2001-v1。VTM 10.0的算法描述可从jvet-experts.org/doc_end_user/documents/20_Teleconference/wg11/JVET-T2002-v3.zip获得。
图1是示出可以执行本公开内容的技术的示例视频编码和解码系统100的框图。概括而言,本公开内容的技术涉及对视频数据进行译码(编码和/或解码)。通常,视频数据包括用于处理视频的任何数据。因此,视频数据可以包括原始的未经译码的视频、经编码的视频、经解码(例如,经重构)的视频、以及视频元数据(例如,信令数据)。
如图1所示,在该示例中,系统100包括源设备102,源设备102提供要被目的地设备116解码和显示的、经编码的视频数据。具体地,源设备102经由计算机可读介质110来将视频数据提供给目的地设备116。源设备102和目的地设备116可以包括各种各样的设备中的任何一种,包括台式计算机、笔记本(即,膝上型)计算机、移动设备、平板计算机、机顶盒、诸如智能电话之类的电话手机、电视机、相机、显示设备、数字媒体播放器、视频游戏控制台、视频流式传输设备、广播接收机设备等。在一些情况下,源设备102和目的地设备116可以被配备用于无线通信,并且因此可以被称为无线通信设备。
在图1的示例中,源设备102包括视频源104、存储器106、视频编码器200以及输出接口108。目的地设备116包括输入接口122、视频解码器300、存储器120以及显示设备118。根据本公开内容,源设备102的视频编码器200和目的地设备116的视频解码器300可以被配置为应用用于使用未经细化的运动向量来执行解码器侧运动向量推导(DMVD)的技术。因此,源设备102表示视频编码设备的示例,而目的地设备116表示视频解码设备的示例。在其它示例中,源设备和目的地设备可以包括其它组件或布置。例如,源设备102可以从诸如外部相机之类的外部视频源接收视频数据。同样,目的地设备116可以与外部显示设备对接,而不是包括集成显示设备。
如图1所示的系统100仅是一个示例。一般来说,任何数字视频编码和/或解码设备都可以执行用于使用未经细化的运动向量来执行解码器侧运动向量推导(DMVD)的技术。源设备102和目的地设备116仅是这样的译码设备的示例,其中,源设备102生成经译码的视频数据以用于传输给目的地设备116。本公开内容将“译码”设备称为执行对数据的译码(例如,编码和/或解码)的设备。因此,视频编码器200和视频解码器300分别表示译码设备(具体地,视频编码器和视频解码器)的示例。在一些示例中,源设备102和目的地设备116可以以基本上对称的方式进行操作,使得源设备102和目的地设备116中的每一者都包括视频编码和解码组件。因此,系统100可以支持在源设备102和目的地设备116之间的单向或双向视频传输,例如,以用于视频流式传输、视频回放、视频广播或视频电话。
通常,视频源104表示视频数据(即,原始的未经译码的视频数据)的源,并且将视频数据的一系列顺序的图片(还被称为“帧”)提供给视频编码器200,视频编码器200对用于图片的数据进行编码。源设备102的视频源104可以包括视频捕获设备,诸如摄像机、包含先前捕获的原始视频的视频存档、和/或用于从视频内容提供者接收视频的视频馈送接口。作为另外的替代方式,视频源104可以生成基于计算机图形的数据作为源视频,或者生成实时视频、被存档的视频和计算机生成的视频的组合。在每种情况下,视频编码器200对被捕获的、预捕获的或计算机生成的视频数据进行编码。视频编码器200可以将图片从所接收的次序(有时被称为“显示次序”)重新排列为用于译码的译码次序。视频编码器200可以生成包括经编码的视频数据的比特流。然后,源设备102可以经由输出接口108将经编码的视频数据输出到计算机可读介质110上,以用于由例如目的地设备116的输入接口122接收和/或取回。
源设备102的存储器106和目的地设备116的存储器120表示通用存储器。在一些示例中,存储器106、120可以存储原始视频数据,例如,来自视频源104的原始视频以及来自视频解码器300的原始的经解码的视频数据。另外或替代地,存储器106、120可以存储可由例如视频编码器200和视频解码器300分别执行的软件指令。尽管存储器106和存储器120在该示例中被示为与视频编码器200和视频解码器300分开,但是应当理解的是,视频编码器200和视频解码器300还可以包括用于在功能上类似或等效目的的内部存储器。此外,存储器106、120可以存储例如从视频编码器200输出并且输入到视频解码器300的经编码的视频数据。在一些示例中,存储器106、120的部分可以被分配为一个或多个视频缓冲器,例如,以存储原始的经解码和/或经编码的视频数据。
计算机可读介质110可以表示能够将经编码的视频数据从源设备102输送到目的地设备116的任何类型的介质或设备。在一个示例中,计算机可读介质110表示通信介质,其使得源设备102能够例如经由射频网络或基于计算机的网络来实时地向目的地设备116直接发送经编码的视频数据。根据诸如无线通信协议之类的通信标准,输出接口108可以对包括经编码的视频数据的传输信号进行解调,并且输入接口122可以对所接收的传输信号进行解调。通信介质可以包括任何无线或有线通信介质,例如,射频(RF)频谱或一条或多条物理传输线。通信介质可以形成诸如以下各项的基于分组的网络的一部分:局域网、广域网、或诸如互联网之类的全球网络。通信介质可以包括路由器、交换机、基站、或可以用于促进从源设备102到目的地设备116的通信的任何其它设备。
在一些示例中,源设备102可以将经编码的数据从输出接口108输出到存储设备112。类似地,目的地设备116可以经由输入接口122从存储设备112访问经编码的数据。存储设备112可以包括各种分布式或本地访问的数据存储介质中的任何一种,诸如硬盘驱动、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器、或用于存储经编码的视频数据的任何其它适当的数字存储介质。
在一些示例中,源设备102可以将经编码的视频数据输出到文件服务器114或者可以存储由源设备102生成的经编码的视频数据的另一中间存储设备。目的地设备116可以经由流式传输或下载来从文件服务器114访问存储的视频数据。
文件服务器114可以是能够存储经编码的视频数据并且将该经编码的视频数据发送给目的地设备116的任何类型的服务器设备。文件服务器114可以表示网页服务器(例如,用于网站)、被配置为提供文件传输协议服务(诸如文件传输协议(FTP)或基于单向传输的文件递送(FLUTE)协议)的服务器、内容递送网络(CDN)设备、超文本传输协议(HTTP)服务器、多媒体广播多播服务(MBMS)或增强型MBMS(eMBMS)服务器、和/或网络附加存储(NAS)设备。文件服务器114可以另外或替代地实现一种或多种HTTP流式传输协议,诸如基于HTTP的动态自适应流式传输(DASH)、HTTP实时流式传输(HLS)、实时流式传输协议(RTSP)、HTTP动态流式传输等。
目的地设备116可以通过任何标准数据连接(包括互联网连接)来从文件服务器114访问经编码的视频数据。这可以包括适于访问被存储在文件服务器114上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,数字用户线(DSL)、电缆调制解调器等)、或这两者的组合。输入接口122可以被配置为根据上文讨论的用于从文件服务器114取回或接收媒体数据的各种协议或者用于取回媒体数据的其它此类协议中的任何一种或多种进行操作。
输出接口108和输入接口122可以表示无线发射机/接收机、调制解调器、有线联网组件(例如,以太网卡)、根据各种IEEE 802.11标准中的任何一种标准进行操作的无线通信组件、或其它物理组件。在其中输出接口108和输入接口122包括无线组件的示例中,输出接口108和输入接口122可以被配置为根据蜂窝通信标准(诸如4G、4G-LTE(长期演进)、改进的LTE、5G等)来传输数据(诸如经编码的视频数据)。在其中输出接口108包括无线发射机的一些示例中,输出接口108和输入接口122可以被配置为根据其它无线标准(诸如IEEE 802.11规范、IEEE 802.15规范(例如,ZigBeeTM)、BluetoothTM标准等)来传输数据(诸如经编码的视频数据)。在一些示例中,源设备102和/或目的地设备116可以包括相应的片上系统(SoC)设备。例如,源设备102可以包括用于执行归因于视频编码器200和/或输出接口108的功能的SoC设备,并且目的地设备116可以包括用于执行归因于视频解码器300和/或输入接口122的功能的SoC设备。
本公开内容的技术可以应用于视频译码,以支持各种多媒体应用中的任何一种,诸如空中电视广播、有线电视传输、卫星电视传输、互联网流式视频传输(诸如基于HTTP的动态自适应流式传输(DASH))、被编码到数据存储介质上的数字视频、对被存储在数据存储介质上的数字视频的解码、或其它应用。
目的地设备116的输入接口122从计算机可读介质110(例如,通信介质、存储设备112、文件服务器114等)接收经编码的视频比特流。经编码的视频比特流可以包括由视频编码器200定义的诸如以下语法元素之类的信令信息(其还被视频解码器300使用):所述语法元素具有描述视频块或其它译码单元(例如,切片、图片、图片组、序列等)的特性和/或处理的值。显示设备118将经解码的视频数据的经解码的图片显示给用户。显示设备118可以表示各种显示设备中的任何一种,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器、或另一类型的显示设备。
尽管在图1中未示出,但是在一些示例中,视频编码器200和视频解码器300可以各自与音频编码器和/或音频解码器集成,并且可以包括适当的MUX-DEMUX单元或其它硬件和/或软件,以处理包括公共数据流中的音频和视频两者的经复用的流。
视频编码器200和视频解码器300各自可以被实现为各种适当的编码器和/或解码器电路中的任何一种,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑、软件、硬件、固件、或其任何组合。当所述技术部分地在软件中实现时,设备可以将用于软件的指令存储在适当的非暂时性计算机可读介质中,并且使用一个或多个处理器,在硬件中执行指令以执行本公开内容的技术。视频编码器200和视频解码器300中的每一者可以被包括在一个或多个编码器或解码器中,编码器或解码器中的任一者可以被集成为相应设备中的组合编码器/解码器(CODEC)的一部分。包括视频编码器200和/或视频解码器300的设备可以包括集成电路、微处理器、和/或无线通信设备(诸如蜂窝电话)。
视频编码器200和视频解码器300可以根据视频译码标准(诸如ITU-T H.265(还被称为高效率视频译码(HEVC)标准)或对其的扩展(诸如多视图和/或可缩放视频译码扩展))进行操作。替代地,视频编码器200和视频解码器300可以根据其它专有或行业标准(诸如ITU-T H.266标准,还被称为多功能视频译码(VVC))进行操作。在其它示例中,视频编码器200和视频解码器300可以根据专有视频编解码器/格式(诸如AOMedia Video 1(AV1)、AV1的扩展和/或AV1的后续版本(例如,AV2))进行操作。在其它示例中,视频编码器200和视频解码器300可以根据其它专有格式或行业标准进行操作。然而,本公开内容的技术不限于任何特定的译码标准或格式。一般来说,视频编码器200和视频解码器300可以被配置为结合使用未经细化的运动向量执行解码器侧运动向量推导(DMVD)的任何视频译码技术来执行本公开内容的技术。
通常,视频编码器200和视频解码器300可以执行对图片的基于块的译码。术语“块”通常指代包括要被处理的(例如,在编码和/或解码过程中要被编码、被解码或以其它方式使用的)数据的结构。例如,块可以包括亮度和/或色度数据的样本的二维矩阵。通常,视频编码器200和视频解码器300可以对以YUV(例如,Y、Cb、Cr)格式表示的视频数据进行译码。也就是说,并不是对用于图片的样本的红色、绿色和蓝色(RGB)数据进行译码,视频编码器200和视频解码器300可以对亮度和色度分量进行译码,其中,色度分量可以包括红色色相和蓝色色相色度分量两者。在一些示例中,视频编码器200在进行编码之前将所接收的经RGB格式化的数据转换为YUV表示,并且视频解码器300将YUV表示转换为RGB格式。替代地,预处理和后处理单元(未示出)可以执行这些转换。
通常,本公开内容可以涉及对图片的译码(例如,编码和解码)以包括对图片的数据进行编码或解码的过程。类似地,本公开内容可以涉及对图片的块的译码以包括对用于块的数据进行编码或解码(例如,预测和/或残差译码)的过程。经编码的视频比特流通常包括用于表示译码决策(例如,译码模式)以及将图片分割为块的语法元素的一系列值。因此,关于对图片或块进行译码的引用通常应当被理解为对用于形成图片或块的语法元素的值进行译码。
HEVC定义了各种块,其包括译码单元(CU)、预测单元(PU)和变换单元(TU)。根据HEVC,视频译码器(诸如视频编码器200)根据四叉树结构来将译码树单元(CTU)分割为CU。也就是说,视频译码器将CTU和CU分割为四个相等的、不重叠的正方形,并且四叉树的每个节点具有零个或四个子节点。没有子节点的节点可以被称为“叶节点”,并且这种叶节点的CU可以包括一个或多个PU和/或一个或多个TU。视频译码器可以进一步分割PU和TU。例如,在HEVC中,残差四叉树(RQT)表示TU的分割。在HEVC中,PU表示帧间预测数据,而TU表示残差数据。经帧内预测的CU包括帧内预测信息,诸如帧内模式指示。
作为另一示例,视频编码器200和视频解码器300可以被配置为根据VVC进行操作。根据VVC,视频译码器(诸如视频编码器200)将图片分割为多个译码树单元(CTU)。视频编码器200可以根据树结构(诸如四叉树-二叉树(QTBT)结构或多类型树(MTT)结构)分割CTU。QTBT结构去除了多种分割类型的概念,诸如在HEVC的CU、PU和TU之间的分隔。QTBT结构包括两个级别:根据四叉树分割而被分割的第一级别、以及根据二叉树分割而被分割的第二级别。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于译码单元(CU)。
在MTT分割结构中,可以使用四叉树(QT)分割、二叉树(BT)分割以及一种或多种类型的三叉树(TT)(还被称为三元树(TT))分割来对块进行分割。三叉树或三元树分割是其中块被分为三个子块的分割。在一些示例中,三叉树或三元树分割将块划分为三个子块,而不通过中心划分原始块。MTT中的分割类型(例如,QT、BT和TT)可以是对称的或不对称的。
当根据AV1编解码器来操作时,视频编码器200和视频解码器300可以被配置为在块中对视频数据进行译码。在AV1中,可以处理的最大译码块被称为超级块。在AV1中,超级块可以是128x128亮度样本或64x64亮度样本。然而,在后续视频译码格式(例如,AV2)中,超级块可以由不同(例如,更大)的亮度样本大小来定义。在一些示例中,超级块是块四叉树的顶层。视频编码器200可以进一步将超级块分割为更小的译码块。视频编码器200可以使用正方形或非正方形分割来将超级块和其它译码块分割为更小的块。非正方形块可以包括N/2xN、NxN/2、N/4xN和NxN/4块。视频编码器200和视频解码器300可以对每个译码块执行单独的预测和变换过程。
AV1还定义了视频数据的瓦片(tile)。瓦片是超级块的矩形阵列,其可以独立于其它瓦片进行译码。也就是说,视频编码器200和视频解码器300可以分别对瓦片内的译码块进行编码和解码,而不使用来自其它瓦片的视频数据。然而,视频编码器200和视频解码器300可以跨瓦片边界执行滤波。瓦片在大小上可以是均匀的或不均匀的。基于瓦片的译码可以实现针对编码器和解码器实现的并行处理和/或多线程。
在一些示例中,视频编码器200和视频解码器300可以使用单个QTBT或MTT结构来表示亮度分量和色度分量中的每一者,而在其它示例中,视频编码器200和视频解码器300可以使用两个或更多个QTBT或MTT结构,诸如用于亮度分量的一个QTBT/MTT结构以及用于两个色度分量的另一QTBT/MTT结构(或者用于相应色度分量的两个QTBT/MTT结构)。
视频编码器200和视频解码器300可以被配置为使用四叉树分割、QTBT分割、MTT分割、超级块分割或其它分割结构。
在一些示例中,CTU包括亮度样本的译码树块(CTB)、具有三个样本阵列的图片的色度样本的两个对应的CTB、或者单色图片或使用三个单独的颜色平面和用于对样本进行译码的语法结构来译码的图片的样本的CTB。CTB可以是样本的NxN块(针对N的某个值),使得将分量划分为CTB是一种分割。分量可以是来自以4:2:0、4:2:2或4:4:4颜色格式的图片的三个阵列(一个亮度和两个色度)之一的阵列或单个样本,或者是以单色格式的图片的阵列或阵列的单个样本。在一些示例中,译码块是样本的M×N块(针对M和N的某些值),使得将CTB划分成译码块是一种分割。
在HEVC中,切片中最大的译码单元称为译码树块(CTB)或译码树单元(CTU)。CTB包含四叉树,其节点是译码单元。在HEVC主简档中,CTB的大小可以从16x16到64x64(尽管技术上可以支持8x8 CTB大小)。译码单元(CU)可以与CTB大小相同,可以小到8x8。每个译码单元利用一种译码模式(即帧内或帧间)进行译码。经帧间译码的CU可以进一步被分割为2个或4个预测单元(PU),或者在不应用进一步分割时仅成为一个PU。当一个CU中存在两个PU时,这两个PU可能是半个大小的矩形或者具有CU的1/4或3/4大小的两个矩形大小。当CU被帧间译码时,每个PU具有一组运动信息,其是利用唯一的帧间预测模式推导的。
可以以各种方式在图片中对块(例如,CTU或CU)进行分组。作为一个示例,砖块(brick)可以指代图片中的特定瓦片内的CTU行的矩形区域。瓦片可以是图片中的特定瓦片列和特定瓦片行内的CTU的矩形区域。瓦片列指代CTU的具有与图片的高度相等的高度以及由语法元素(例如,诸如在图片参数集中)指定的宽度的矩形区域。瓦片行指代CTU的具有由语法元素(例如,诸如在图片参数集中)指定的高度以及与图片的宽度相等的宽度的矩形区域。
在一些示例中,可以将瓦片分割为多个砖块,每个砖块可以包括瓦片内的一个或多个CTU行。未被分割为多个砖块的瓦片还可以被称为砖块。然而,作为瓦片的真实子集的砖块可以不被称为瓦片。图片中的砖块还可以被排列在切片中。切片可以是图片的整数个砖块,其可以唯一地被包含在单个网络抽象层(NAL)单元中。在一些示例中,切片包括多个完整的瓦片或者仅包括一个瓦片的完整砖块的连续序列。
本公开内容可以互换地使用“NxN”和“N乘N”来指代块(诸如CU或其它视频块)在垂直和水平维度方面的样本维度,例如,16x16样本或16乘16样本。通常,16x16 CU在垂直方向上具有16个样本(y=16),并且在水平方向上具有16个样本(x=16)。同样地,NxN CU通常在垂直方向上具有N个样本,并且在水平方向上具有N个样本,其中N表示非负整数值。CU中的样本可以按行和列来排列。此外,CU不一定需要在水平方向上具有与在垂直方向上相同的数量的样本。例如,CU可以包括NxM个样本,其中M不一定等于N。
视频编码器200对用于CU的表示预测和/或残差信息以及其它信息的视频数据进行编码。预测信息指示将如何预测CU以便形成用于CU的预测块。残差信息通常表示在编码之前的CU的样本与预测块之间的逐样本差。
为了预测CU,视频编码器200通常可以通过帧间预测或帧内预测来形成用于CU的预测块。帧间预测通常指代根据先前译码的图片的数据来预测CU,而帧内预测通常指代根据相同图片的先前译码的数据来预测CU。为了执行帧间预测,视频编码器200可以使用一个或多个运动向量来生成预测块。视频编码器200通常可以执行运动搜索,以识别例如在CU与参考块之间的差异方面与CU紧密匹配的参考块。视频编码器200可以使用绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)、或其它这种差计算来计算差度量,以确定参考块是否与当前CU紧密匹配。在一些示例中,视频编码器200可以使用单向预测或双向预测来预测当前CU。
VVC的一些示例还提供仿射运动补偿模式,其可以被认为是帧间预测模式。在仿射运动补偿模式下,视频编码器200可以确定表示非平移运动(诸如放大或缩小、旋转、透视运动或其它不规则的运动类型)的两个或更多个运动向量。
为了执行帧内预测,视频编码器200可以选择帧内预测模式来生成预测块。VVC的一些示例提供六十七种帧内预测模式,其包括各种定向模式、以及平面模式和DC模式。通常,视频编码器200选择帧内预测模式,帧内预测模式描述要根据其来预测当前块(例如,CU的块)的样本的、当前块的相邻样本。假设视频编码器200以光栅扫描次序(从左到右、从上到下)对CTU和CU进行译码,则这样的样本通常可以是在与当前块相同的图片中在当前块的上方、左上方或左侧。
视频编码器200对表示用于当前块的预测模式的数据进行编码。例如,对于帧间预测模式,视频编码器200可以对表示使用各种可用帧间预测模式中的哪一种的数据以及用于对应模式的运动信息进行编码。对于单向或双向帧间预测,例如,视频编码器200可以使用高级运动向量预测(AMVP)或合并模式来对运动向量进行编码。视频编码器200可以使用类似的模式来对用于仿射运动补偿模式的运动向量进行编码。
AV1包括两种用于对视频数据的译码块进行编码和解码的通用技术。这两种通用技术是帧内预测(例如,帧内预测或空间预测)和帧间预测(例如,帧间预测或时间预测)。在AV1的上下文中,当使用帧内预测模式来预测视频数据的当前帧的块时,视频编码器200和视频解码器300不使用来自视频数据的其它帧的视频数据。对于大多数帧内预测模式,视频编码器200基于当前块中的样本值与从相同帧中的参考样本生成的预测值之间的差来对当前帧的块进行编码。视频编码器200基于帧内预测模式来确定从参考样本生成的预测值。
在诸如对块的帧内预测或帧间预测之类的预测之后,视频编码器200可以计算用于该块的残差数据。残差数据(诸如残差块)表示在块与用于该块的预测块之间的逐样本差,该预测块是使用对应的预测模式来形成的。视频编码器200可以将一个或多个变换应用于残差块,以在变换域而非样本域中产生经变换的数据。例如,视频编码器200可以将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外,视频编码器200可以在第一变换之后应用二次变换,诸如模式相关的不可分离二次变换(MDNSST)、信号相关变换、Karhunen-Loeve变换(KLT)等。视频编码器200在应用一个或多个变换之后产生变换系数。
如上文所述,在任何变换以产生变换系数之后,视频编码器200可以执行对变换系数的量化。量化通常指代如下的过程:在该过程中,对变换系数进行量化以可能地减少用于表示变换系数的数据量,从而提供进一步的压缩。通过执行量化过程,视频编码器200可以减小与一些或所有变换系数相关联的比特深度。例如,视频编码器200可以在量化期间将n比特值向下舍入为m比特值,其中n大于m。在一些示例中,为了执行量化,视频编码器200可以执行待量化的值的逐位右移。
在量化之后,视频编码器200可以扫描变换系数,从而从包括经量化的变换系数的二维矩阵产生一维向量。可以将扫描设计为将较高能量(并且因此较低频率)变换系数放在向量的前面,并且将较低能量(并且因此较高频率)变换系数放在向量的后面。在一些示例中,视频编码器200可以利用预定义的扫描次序来扫描经量化的变换系数以产生经串行化的向量,并且然后对向量的经量化的变换系数进行熵编码。在其它示例中,视频编码器200可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器200可以例如根据上下文自适应二进制算术译码(CABAC)来对一维向量进行熵编码。视频编码器200还可以对用于描述与经编码的视频数据相关联的元数据的语法元素的值进行熵编码,以供视频解码器300在对视频数据进行解码时使用。
为了执行CABAC,视频编码器200可以将上下文模型内的上下文指派给要被发送的符号。上下文可以涉及例如符号的相邻值是否为零值。概率确定可以是基于被指派给符号的上下文的。
视频编码器200还可以例如在图片头部、块头部、切片头部中生成去往视频解码器300的语法数据(诸如基于块的语法数据、基于图片的语法数据和基于序列的语法数据)、或其它语法数据(诸如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS))。同样地,视频解码器300可以对这样的语法数据进行解码以确定如何解码对应的视频数据。
以这种方式,视频编码器200可以生成比特流,其包括经编码的视频数据,例如,描述将图片分割为块(例如,CU)以及用于该块的预测和/或残差信息的语法元素。最终,视频解码器300可以接收比特流并且对经编码的视频数据进行解码。
通常,视频解码器300执行与由视频编码器200执行的过程互逆的过程,以对比特流的经编码的视频数据进行解码。例如,视频解码器300可以使用CABAC以与视频编码器200的CABAC编码过程基本上类似的、但是互逆的方式来对用于比特流的语法元素的值进行解码。语法元素可以定义用于将图片分割为CTU、以及根据对应的分割结构(诸如QTBT结构)对每个CTU进行分割以定义CTU的CU的分割信息。语法元素还可以定义用于视频数据的块(例如,CU)的预测和残差信息。
残差信息可以由例如经量化的变换系数来表示。视频解码器300可以对块的经量化的变换系数进行逆量化和逆变换以重新产生用于该块的残差块。视频解码器300使用经信号通知的预测模式(帧内预测或帧间预测)和相关的预测信息(例如,用于帧间预测的运动信息)来形成用于该块的预测块。视频解码器300然后可以对预测块和残差块(在逐个样本的基础上)进行组合以重新产生原始块。视频解码器300可以执行额外处理,诸如执行去块过程以减少沿着块的边界的视觉伪影。
本公开内容通常可能涉及“用信号通知”某些信息(诸如语法元素)。术语“用信号通知”通常可以指代对用于语法元素的值和/或用于对经编码的视频数据进行解码的其它数据的传送。也就是说,视频编码器200可以在比特流中用信号通知用于语法元素的值。通常,信令指代在比特流中生成值。如上文所述,源设备102可以基本上实时地或不实时地(诸如可能在将语法元素存储到存储设备112以供目的地设备116稍后取回时发生)将比特流传输到目的地设备116。
图2A和图2B是示出用于在合并模式和高级运动向量预测(AMVP)模式下对运动向量进行译码的示例空间相邻运动向量候选的概念图。特别是,图2A描绘了针对合并模式的PU0 130的空间相邻运动向量(MV)候选,而图2B描绘了针对AMVP模式的PU0 132的空间相邻MV候选。
在HEVC标准中,对于预测单元(PU),存在两种帧间预测模式,分别被命名为合并(跳过被视为合并的特殊情况)和高级运动向量预测(AMVP)模式。在AMVP或合并模式下,针对多个运动向量预测器维护运动向量(MV)候选列表。当前PU的运动向量以及合并模式下的参考索引是通过从MV候选列表中抽取一个候选来生成的。针对合并模式,MV候选列表包含多达5个候选,而针对AMVP模式,仅2个候选。合并候选可以包含一组运动信息,例如与参考图片列表(列表0和列表1)和参考索引两者相对应的运动向量。如果通过合并索引标识了合并候选,则确定用于当前块的预测的参考图片以及相关联的运动向量。
另一方面,在AMVP模式下,对于来自列表0或列表1的每个潜在预测方向,由于AMVP候选只包含运动向量,因此需要明确地用信号通知参考索引以及MV候选列表的MV预测器(MVP)索引。在AMVP模式下,可以进一步细化经预测的运动向量。针对两种模式的候选是类似地从相同的空间和时间相邻块推导的。
根据HEVC,对于特定的PU(PU0),空间MV候选是从在图2A和2B中所示的相邻块推导的,尽管从块生成候选的方法对于合并模式和AMVP模式是不同的。在合并模式下,对于PU0130,可以推导多达四个空间MV候选,其顺序用数字在图2A上示出,并且顺序如下:左(0,A1)、上(1,B1)、右上(2,B0)、左下(3,A0)和左上(4,B2)。
如图2B所示,在AVMP模式下,相邻块被分为两组:左组包括块0和1,并且上组包括块2、3和4。对于每个组,PU0 132的相邻块中的潜在候选具有被选择以形成该组的最终候选的最高优先级,该PU0 132参考与由信号发送的参考索引所指示的参考图片相同的参考图片。有可能不是所有的相邻块都包含指向相同参考图片的运动向量。因此,如果不能找到这样的候选,则可以缩放第一可用候选以形成最终候选;因此,可以补偿时间距离差。
图3A和图3B是示出时间运动向量预测(TMVP)技术的概念图。具体而言,图3A描绘了PU0134的TMVP候选的位置(标注为“T”),而图3B描绘了基于图片之间的时间距离的运动向量缩放。
如果启用了TMVP并且TMVP候选可用,则视频译码器可以将TMVP候选添加到MV候选列表中在空间MV候选之后。TMVP候选的运动向量推导的过程对于合并模式和AMVP模式是相同的。然而,在合并模式下,TMVP候选的目标参考索引可以被设置为0。
TMVP候选推导的主块位置是共址PU之外的右下块,如图3A中作为块136A所示,以补偿用于生成空间相邻候选的上块和左块的偏差。然而,如果块136A位于当前CTB行之外或者运动信息不可用,则可以用PU的中心块(块136B)来替代TMVP候选。
TMVP候选的运动向量是从(在切片级别中指示的)共址图片的共址PU推导的。共址PU的运动向量称为共址MV。与AVC中的时间直接模式类似,为了推导TMVP候选运动向量,需要对共址MV进行缩放以补偿时间距离差,如图3B所示。
HEVC包括各种其它运动向量预测技术,例如,如下文讨论的。
假设运动向量的值与呈现时间中的图片的距离成比例。运动向量关联两幅图片,参考图片和包含运动向量的图片(即包含图片)。当利用运动向量来预测另一运动向量时,包含图片和参考图片的距离是基于图片顺序计数(POC)值来计算的。
对于要预测的运动向量,其相关联的包含图片和参考图片两者可能是不同的。因此,计算新的距离(基于POC)。并且运动向量是基于这两个POC距离进行缩放的。对于空间相邻候选,两个运动向量的包含图像是相同的,而参考图像是不同的。在HEVC中,运动向量缩放应用于用于空间和时间相邻候选的TMVP和AMVP两者。
如果运动向量候选列表是不完整的,则可以生成人工运动向量候选并且将人工运动向量候选插入列表的末尾处,直到列表充满候选为止。在合并模式下,存在两种类型的人工MV候选:仅针对B切片导出的合并候选和仅用于AMVP的零候选(如果第一类型没有提供足够的人工候选)。对于候选列表中已经存在并且具有必要运动信息的每对候选,通过参考列表0中的图片的第一候选的运动向量和参考列表1中的图片的第二候选的运动向量的组合,来推导双向组合运动向量候选。
来自不同块的候选可能碰巧相同,这降低了合并/AMVP候选列表的效率。视频译码器可以采用修剪过程来解决该问题。利用修剪过程,视频译码器可以将一个候选与当前候选列表中的其它候选进行比较,以避免在某种程度上插入相同的候选。为了降低复杂性,可以仅应用有限次数的修剪过程迭代,而不是将每个潜在的修剪过程与所有其它现有的修剪过程进行比较。
图4是示出用于运动向量译码的模板匹配(TM)预测的概念图。模板匹配(TM)预测是基于帧速率向上转换(FRUC)技术的特殊合并模式。在该模式的情况下,不以信号通知当前块(诸如当前CU 140)的运动信息,而是在解码器侧处(例如,由视频解码器300)推导该运动信息。视频编码器200还可以在运动补偿期间执行这些技术。TM应用于AMVP模式和常规合并模式两者。在AMVP模式下,MVP候选选择是基于模板匹配来确定的,以挑选出在当前块模板与参考块模板之间达到最小差异的一个MVP候选。在常规合并模式下,以信号通知TM模式标志,以指示TM的使用,然后TM应用于由合并索引指示的合并候选,以进行MV细化。
如图4所示,模板匹配可以用于通过查找当前图片142中的模板(当前CU的顶部和/或左侧相邻块)与参考图片144中的块(与模板相同大小)之间的最接近匹配,来推导出当前CU 140的运动信息。在基于初始匹配误差选择的AMVP候选的情况下,在搜索区域146内通过模板匹配来细化其MVP。在由以信号通知的合并索引指示的合并候选的情况下,其对应于L0和L1的合并MV通过模板匹配被独立地细化,并且然后利用较好的MV作为先验来再次进一步细化较不准确的MV。
当运动向量指向分数样本位置时,需要运动补偿的内插。为了降低复杂性,双线性内插而不是常规的8抽头DCT-IF内插被用于两个模板匹配,以在参考图片上生成模板。模板匹配的匹配成本C可以按以下方式计算:
在上文公式(1)中,w是可以被设为4(例如,基于经验测试)的加权因子,MV和MVs分别指示当前测试的MV和初始MV(即,AMVP模式下的MVP候选或合并模式下的合并运动)。绝对差值之和(SAD)可以用作模板匹配的匹配成本。
当使用TM时,可以仅使用亮度样本来对运动进行细化。所推导的运动可以用于MC间预测的亮度和色度两者。在确定MV之后,最终的MC可以使用用于亮度的8抽头内插滤波器和用于色度的4抽头内插滤波器来执行。
MV细化是具有模板匹配成本和层级结构的标准的基于模式的MV搜索。可以支持两种搜索模式:用于MV细化的菱形搜索和交叉搜索。层级结构指定对MV进行细化的迭代过程,以粗略的MVD精度(例如,四分之一像素)开始并且以精细的MVD精度(例如,1/8像素)结束。可以以具有菱形图案的四分之一亮度样本MVD精度直接搜索MV,随后是以具有交叉图案的四分之一亮度样本MVD精度搜索MV,然后在此之后是具有交叉图案的八分之一亮度样本MVD细化。MV细化的搜索范围146可以设置为等于初始MV周围的(-8,+8)个亮度样本。在当前块是双预测时,两个MV被独立地细化,并且然后将其中最好的MV(就匹配成本而言)设置为先验,以进一步细化具有BCW权重值的另一MV。
图5是示出针对参考图片中的与包括当前块150的当前图片具有不同的时间距离(TD)的块的运动向量差(MVD)值的概念图。双边匹配(还称为双边合并或BM)预测是基于帧速率向上转换(FRUC)技术的另一合并模式。当视频译码器(诸如视频编码器200或视频解码器300)确定应用BM模式时,视频译码器可以推导两个初始运动向量MV0和MV1。视频译码器可以对表示所构建的合并列表中的合并候选的合并候选索引进行译码。视频译码器可以围绕MV0和MV1执行双边匹配搜索。视频译码器可以基于最小双边匹配成本来推导最终的MV0'和MV1'。
指向参考块152、154的运动向量差MVD0(通过MV0'-MV0表示)和MVD1(通过MV1'-MV1表示)可以与在当前图片和两张参考图片之间的时间距离(TD)(例如,TD0和TD1)成比例。时间距离可以表示在针对相应图片的图片顺序计数(POC)值之间的差。图5示出了MVD0和MVD1的示例,其中TD1是TD0的4倍。
图6是示出在其中两个MVD被镜像而不考虑时间距离的示例的概念图。图6描绘了在其中MVD0和MVD1被镜像而不考虑TD0和TD1的可选设计。在图6的示例中,MVD0和MVD1是镜像的,其中TD1是TD0的4倍。
图7是示出双边匹配搜索范围中的3x3正方形搜索模式的示例的概念图。根据双边匹配,视频译码器(诸如视频编码器200和视频解码器300)可以围绕初始MV0和MV1执行局部搜索,以推导最终MV0'和MV1'。视频译码器可以将局部搜索应用于3×3正方形搜索模式,并且在搜索范围[-8,8]内循环。在每次搜索迭代中,视频译码器可以计算搜索模式中的八个周围MV的双边匹配成本,并且将这些成本与中心MV的双边匹配成本进行比较。在下一次搜索迭代中,具有最小双边匹配成本的MV成为新的中心MV。在当前中心MV具有在3×3正方形搜索模式内的最小成本或局部搜索达到预定义的的最大搜索迭代时,视频译码器可以终止局部搜索。图7示出了搜索范围[-8,8]中的3×3正方形搜索模式的示例。
图8是示出针对当前块160使用解码器侧运动向量细化(DMVR)来对运动向量进行细化的示例的概念图。为了提高合并模式的MV的精确度,在VVC中应用解码器侧运动向量细化(DMVR)。视频编码器200和视频解码器300两者可以执行DMVR过程。在双预测操作中,在参考图片列表L0和参考图片列表L1中围绕初始MV搜索经细化的MV。视频译码器根据DMVR技术来计算在参考图片列表L0和列表L1中的两个候选块162A和164A之间的失真。如图8所示,计算基于初始MV周围的每个MV候选的候选块162B、164B之间的SAD。具有最低SAD的MV候选162B、164B成为经细化的MV并且用于生成经双预测的信号。
通过DMVR过程推导的经细化的MV用于生成帧间预测样本,并且还在用于未来图片译码的时间运动向量预测中使用。而初始MV用于去块过程中,并且还在用于未来CU译码的空间运动向量预测中使用。DMVR是具有16x16亮度样本的预定义的最大处理单元的基于子块的合并模式。当CU的宽度和/或高度大于16个亮度样本时,CU可以进一步被分割成具有宽度和/或高度等于16个亮度样本的子块。
在DMVR中,搜索点围绕着初始MV,并且MV偏移遵守MV差镜像规则。换句话说,由DMVR检查的任何点(通过候选MV对(MV0、MV1)表示)都遵守以下两个等式:
MV0'=MV0+MV_offset
MV1'=MV1-MV_offset
在上文的公式中,MV_offset表示在初始MV与参考图片之一中的经细化的MV之间的细化偏移。细化搜索范围是来自初始MV的两个整数亮度样本。搜索包括整数样本偏移搜索阶段和分数样本细化阶段。
视频译码器可以针对整数样本偏移搜索执行25点全搜索。首先计算初始MV对的SAD。如果初始MV对的SAD小于门限,则终止DMVR的整数样本阶段。否则以光栅扫描顺序计算和检查剩余24个点的SAD。具有最小SAD的点被选择作为整数样本偏移搜索阶段的输出。为了减少DMVR细化的不确定性的惩罚,建议在DMVR过程期间倾向于使用初始MV。在由初始MV候选引用的参考块之间的SAD被减少SAD值的1/4。
整数样本搜索之后是分数样本细化。为了节省计算的复杂性,通过使用参数误差表面等式而不是利用SAD比较的额外搜索来推导分数样本细化。基于整数样本搜索阶段的输出,有条件地调用分数样本细化。当整数样本搜索阶段在第一迭代或第二迭代搜索中具有最小SAD的中心终止时,进一步应用分数样本细化。
在基于参数误差表面的子像素偏移估计中,中心位置成本和在距中心的四个相邻位置处的成本被用来拟合如下形式的2-D抛物线误差表面等式:
Ex,y=A(x-xmin)2+B(y-ymin)2+C
其中,(xmin,ymin)对应于具有成本最小的分数位置,并且C对应于最小成本值。使用五个搜索点的成本值求解上述等式,(xmin,ymin)可以被计算为:
xmin=(E-1,0–E1,0)/2(E-1,0+E1,0–2E0,0)
ymin=(E0,-1–E0,1)/2(E0,-1+E0,1–2E0,0)
xmin和ymin的值可以自动约束在-8和8之间,因为所有成本值都是正的,并且最小值是E(0,0)。这对应于在VVC中具有1/16像素MV精确度的半像素(pel)偏移。将所计算的分数(xmin、ymin)加到整数距离细化MV,以得到子像素(sub-pixel)精确的细化ΔMV。
在VVC中,MV的分辨率为1/16亮度样本。在分数位置处的样本使用8抽头内插滤波器进行内插。在DMVR中,搜索点围绕具有整数样本偏移的初始分数像素MV,因此需要对这些分数位置的样本进行内插以用于DMVR搜索过程。为了降低计算复杂度,在DMVR中使用双线性内插滤波器来生成用于搜索过程的分数样本。另一个重要的效果是:通过使用双线性滤波器,在2样本搜索范围的情况下,与普通的运动补偿过程相比,DVMR不访问更多的参考样本。在利用DMVR搜索过程获得经细化的MV之后,应用普通的8抽头内插滤波器生成最终预测。为了不访问正常MC过程的更多的参考样本,可以从那些可用的样本中填充基于初始MV的内插过程不需要但基于经细化的MV的内插过程需要的样本。
在VVC中,如果以下条件全部满足,则启用DMVR:
·具有双预测MV的CU级别合并模式
·相对于当前图片,一个参考图片是过去的并且另一参考图片是未来的
·从两个参考图片到当前图片的距离(即,POC差)是相同的
·CU具有多于64个亮度样本
·CU高度和CU宽度两者大于或等于8个亮度样本
·BCW权重索引指示相等的权重
·针对当前块未启用WP
·针对当前块未使用CIIP模式
本公开内容认识到,可能存在与上文讨论的DMVD方法(例如,TM、BM、DMVR、多通道DMVR(于2020年12月22日提交的美国临时申请No.63/129,221))有关的硬件实现问题。特别地,本公开内容认识到两个主要的硬件实现问题:空间运动向量传播和相邻重构样本访问。
对于所有DMVD方法,将细化向量信息的空间运动向量传播到用于空间运动向量预测的后续块是关键的硬件实施负担。运动场重构、参考样本提取和运动补偿(即,要求访问参考样本的所有操作,例如内插过程和DMVD方法)通常在不同的流水线阶段中分开,并且前两个阶段必须在运动补偿之前的几个周期(或几个CTU)完成,以确保参考样本始终在芯片上准备就绪用于内插。由于在前两个阶段期间细化向量信息是未知的,所以所有三个阶段只能按顺序地进行,这破坏了流水线设计并且增加了解码延迟。
一种变通的解决方案是提取更多的参考样本,以覆盖在运动补偿过程期间可能使用的所有可能样本;然而,由于空间MV预测,细化运动信息可能延续到后续块,并且在空间上累积,从而导致待从参考图片提取的参考样本的大小不确定。因此,这与从参考图片中提取所有内容没有什么不同,这需要增加片上存储器缓冲区来保存它们,而且将损害高速缓存命中率。另一变通解决方案是停止向当前画面中的后续块传播细化向量信息,这面临显著损失MV预测效率的风险。
访问用于模板匹配的相邻的重构样本以生成当前块模板还导致解码中的较长时延。在没有模板匹配的情况下,可以独立地重构帧间块,而不考虑相邻块重构(不像帧内块,帧内块必须等待相邻块重构以执行帧内预测)。然而,模板匹配要求访问相邻的重构样本,这意味着在帧间预测中,当前块和相邻块重构引入了一定的相互依赖性,从而导致解码时延的增加。
图1以及下文的图9和图10中的视频编码器200和视频解码器300可以被配置为执行可以克服这些问题的技术。
在一个示例中,视频编码器200和视频解码器300可以被配置为针对DMVD的受约束的搜索范围。虽然被称为“解码器侧运动向量推导”,但是应理解视频编码器200还可以执行DMVD技术,使得由视频编码器200用于参考的视频数据准确地反映由视频解码器300解码并且用于参考的视频数据。特别地,视频编码器200也包括解码器环路,在该解码器环路期间可以执行DMVD技术。因此,视频编码器200和视频解码器300两者都可以执行本公开内容的DMVD技术。
可以对由视频编码器200和视频解码器300执行的解码器侧运动向量推导(DMVD)技术(诸如TM、BM、DMVR、多通道DMVR)施加搜索范围约束,以限制从确定性边界框内的参考帧提取的参考样本的数量,该确定性边界框包含参考图片的最大可能参考区域。在不丧失一般性的情况下,以下讨论仅包括对单向预测情况的描述。然而,相同的技术可以直接应用于双向预测情况。
图9是示出可以执行本公开内容的技术的示例视频编码器200的框图。图9是出于解释的目的而提供的,并且不应当被认为是对在本公开内容中广泛地例示和描述的技术的限制。出于解释的目的,本公开内容描述了根据VVC(ITU-T H.266,在开发中)和HEVC(ITU-TH.265)的技术的视频编码器200。然而,本公开内容的技术可以由被配置为其它视频译码标准和视频译码格式(诸如AV1和AV1视频译码格式的后继者)的视频编码设备来执行。
在图9的示例中,视频编码器200包括视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重构单元214、滤波器单元216、解码图片缓冲器(DPB)218和熵编码单元220。视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重构单元214、滤波器单元216、DPB 218和熵编码单元220中的任何一者或全部可以在一个或多个处理器中或者在处理电路中实现。例如,视频编码器200的单元可以被实现为一个或多个电路或逻辑元件,作为硬件电路的一部分或者作为处理器、ASIC或FPGA的一部分。此外,视频编码器200可以包括用于执行这些和其它功能的额外或替代的处理器或处理电路。
视频数据存储器230可以存储要由视频编码器200的组件编码的视频数据。视频编码器200可以从例如视频源104(图1)接收被存储在视频数据存储器230中的视频数据。DPB218可以充当参考图片存储器,其存储参考视频数据以在由视频编码器200对后续视频数据进行预测时使用。视频数据存储器230和DPB 218可以由诸如以下各项的各种存储器设备中的任何一种形成:动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻RAM(MRAM)、电阻性RAM(RRAM)、或其它类型的存储器设备。视频数据存储器230和DPB 218可以由相同的存储器设备或单独的存储器设备来提供。在各个示例中,视频数据存储器230可以与视频编码器200的其它组件在芯片上(如图所示),或者相对于那些组件在芯片外。
在本公开内容中,对视频数据存储器230的引用不应当被解释为限于在视频编码器200内部的存储器(除非具体地描述为如此),或者不限于在视频编码器200外部的存储器(除非具体地描述为如此)。确切而言,对视频数据存储器230的引用应当被理解为存储视频编码器200接收以用于编码的视频数据(例如,用于要被编码的当前块的视频数据)的参考存储器。图1的存储器106还可以提供对来自视频编码器200的各个单元的输出的临时存储。
示出了图9的各个单元以帮助理解由视频编码器200执行的操作。这些单元可以被实现为固定功能电路、可编程电路、或其组合。固定功能电路指代提供特定功能并且关于可以执行的操作而预先设置的电路。可编程电路指代可以被编程以执行各种任务并且在可以执行的操作中提供灵活功能的电路。例如,可编程电路可以执行软件或固件,软件或固件使得可编程电路以通过软件或固件的指令定义的方式进行操作。固定功能电路可以执行软件指令(例如,以接收参数或输出参数),但是固定功能电路执行的操作的类型通常是不可变的。在一些示例中,这些单元中的一个或多个单元可以是不同的电路块(固定功能或可编程),并且在一些示例中,这些单元中的一个或多个单元可以是集成电路。
视频编码器200可以包括从可编程电路形成的算术逻辑单元(ALU)、基本功能单元(EFU)、数字电路、模拟电路和/或可编程核。在其中使用由可编程电路执行的软件来执行视频编码器200的操作的示例中,存储器106(图1)可以存储视频编码器200接收并且执行的软件的指令(例如,目标代码),或者视频编码器200内的另一存储器(未示出)可以存储这样的指令。
视频数据存储器230被配置为存储所接收的视频数据。视频编码器200可以从视频数据存储器230取回视频数据的图片,并且将视频数据提供给残差生成单元204和模式选择单元202。视频数据存储器230中的视频数据可以是要被编码的原始视频数据。
模式选择单元202包括运动估计单元222、运动补偿单元224和帧内预测单元226。模式选择单元202可以包括用于根据其它预测模式来执行视频预测的额外的功能单元。作为示例,模式选择单元202可以包括调色板单元、块内复制单元(其可以是运动估计单元222和/或运动补偿单元224的一部分)、仿射单元、线性模型(LM)单元等。
模式选择单元202通常协调多个编码通路(pass),以测试编码参数的组合以及针对这样的组合所得到的率失真值。编码参数可以包括将CTU分割为CU、用于CU的预测模式、用于CU的残差数据的变换类型、用于CU的残差数据的量化参数等。模式选择单元202可以最终选择编码参数的具有比其它测试的组合更佳的率失真值的组合。
视频编码器200可以将从视频数据存储器230取回的图片分割为一系列CTU,并且将一个或多个CTU封装在切片内。模式选择单元202可以根据树结构(诸如上文描述的MTT结构、QTBT结构、超级块结构或四叉树结构)来分割图片的CTU。如上文所述,视频编码器200可以从根据树结构来分割CTU形成一个或多个CU。这样的CU通常还可以被称为“视频块”或“块”。
通常,模式选择单元202还控制其组件(例如,运动估计单元222、运动补偿单元224和帧内预测单元226)以生成用于当前块(例如,当前CU,或者在HEVC中PU和TU的重叠部分)的预测块。对于当前块的帧间预测,运动估计单元222可以执行运动搜索以识别在一个或多个参考图片(例如,被存储在DPB 218中的一个或多个先前译码的图片)中的一个或多个紧密匹配的参考块。具体地,运动估计单元222可以例如根据绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)等来计算表示潜在参考块与当前块的类似程度的值。运动估计单元222通常可以使用在当前块与正在考虑的参考块之间的逐样本差来执行这些计算。运动估计单元222可以识别从这些计算所得到的具有最低值的参考块,其指示与当前块最紧密匹配的参考块。
运动估计单元222可以形成一个或多个运动向量(MV),所述运动向量定义相对于当前块在当前图片中的位置而言参考块在参考图片中的位置。然后,运动估计单元222可以将运动向量提供给运动补偿单元224。例如,对于单向帧间预测,运动估计单元222可以提供单个运动向量,而对于双向帧间预测,运动估计单元222可以提供两个运动向量。
运动补偿单元224可以被配置为执行本公开内容的各种解码器侧运动向量推导(DMVD)技术中的任何一种。虽然被称为“解码器侧”,但是应该理解的是,视频编码器200还可以执行这些技术,使得由经推导/细化的运动向量标识的参考块是相同的。之所以使用术语“解码器侧”,是因为解码器(例如,视频解码器300)能够使用一种或多种各种技术来推导/细化用于块的运动向量,而无需由视频编码器200以信号发送的额外信息。
根据本公开内容的技术,运动补偿单元224可以确定确定性边界框,从该确定性边界框检索参考图片的参考样本(例如,被存储在DPB 218中),以针对视频数据的当前块执行DMVD。对于各种DMVD技术(例如,模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)和/或多通道DMVR中的每一者),确定性边界框的大小可以是相同的。
为了确定确定性边界框,运动补偿单元224可以最初从当前块的相邻块检索未经细化的运动向量。未经细化的运动向量可能是使用比特流中的数据为相邻块编码(和存储)的运动向量,而尚未使用各种DMVD技术中任何一种进行细化。因此,运动补偿单元224可以在对相邻块进行编码之前对用于相邻块的运动向量进行细化,但是可以使用用于相邻块的运动向量的未经细化版本来确定针对当前块的确定性边界框。
使用用于相邻块的未经细化的运动向量,运动补偿单元224可以识别参考图片中的确定性边界框的中心样本。如果中心样本位于参考图片中的位置(x,y),则确定性边界框可以具有(x-N,y-N)、(x-N,y+N)、(x+N,y-N)和(x+N,y+N)的顶点,其中N为正整数值。N可以是预配置的值、根据内部运动向量存储精度的倍数计算的值、或者视频编码器200在比特流中(例如,在序列参数集(SPS)、图片参数集(PPS)、切片头部信息、块头部信息等中)以信号通知的值。再次,对于各种DMVD技术中的任何一种,N可以是相同的。
然后,运动补偿单元224可以执行本公开内容的各种DMVD技术(或其它类似DMVD的技术)中的任何一种,在确定性边界框内执行细化搜索。运动补偿单元224可以使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段,然后使用一个或多个未经细化的运动向量执行参考样本提取阶段,以检索确定性边界框内的参考样本。然后,运动补偿单元224可以使用检索到的参考样本来执行DMVD技术。
在一些示例中,当运动补偿单元224执行TM时,运动补偿单元224可以仅使用相邻的重构样本来形成当前块模板。
最终,在使用本公开内容的一种或多种DMVD技术推导或细化一个或多个运动向量之后,运动补偿单元224可以获得参考样本,以使用运动向量来生成预测块。预测块的形成可以在运动补偿阶段期间执行。例如,运动补偿单元224可以使用运动向量来取回参考块的数据。作为另一示例,如果运动向量具有分数样本精度,则运动补偿单元224可以根据一个或多个内插滤波器来对用于预测块的值进行内插。此外,对于双向帧间预测,运动补偿单元224可以取回用于由相应的运动向量标识的两个参考块的数据并且例如通过逐样本平均或加权平均来对所取回的数据进行组合。
当根据AV1视频译码格式来操作时,运动估计单元222和运动补偿单元224可以被配置为使用平移运动补偿、仿射运动补偿、重叠块运动补偿(OBMC)和/或复合帧内帧间预测来对视频数据的译码块(例如,亮度译码块和色度译码块两者)进行编码。
作为另一示例,对于帧内预测或帧内预测译码,帧内预测单元226可以根据与当前块相邻的样本来生成预测块。例如,对于定向模式,帧内预测单元226通常可以在数学上对相邻样本的值进行组合,并且跨当前块在所定义的方向上填充这些计算出的值以产生预测块。作为另一示例,对于DC模式,帧内预测单元226可以计算当前块的相邻样本的平均,并且生成预测块以包括针对预测块的每个样本的该得到的平均。
当根据AV1视频译码格式来操作时,帧内预测单元226可以被配置为使用定向帧内预测、非定向帧内预测、递归滤波器帧内预测、根据亮度预测色度(CFL)预测、块内复制(IBC)和/或调色板模式来对视频数据的译码块(例如,亮度译码块和色度译码块两者)进行编码。模式选择单元202可以包括用于根据其它预测模式来执行视频预测的额外的功能单元。
模式选择单元202将预测块提供给残差生成单元204。残差生成单元204从视频数据存储器230接收当前块的原始的未经译码的版本,并且从模式选择单元202接收预测块。残差生成单元204计算在当前块与预测块之间的逐样本差。所得到的逐样本差定义了用于当前块的残差块。在一些示例中,残差生成单元204还可以确定在残差块中的样本值之间的差,以使用残差差分脉冲译码调制(RDPCM)来生成残差块。在一些示例中,可以使用执行二进制减法的一个或多个减法器电路来形成残差生成单元204。
在其中模式选择单元202将CU分割为PU的示例中,每个PU可以与亮度预测单元和对应的色度预测单元相关联。视频编码器200和视频解码器300可以支持具有各种大小的PU。如上文所指出的,CU的大小可以指代CU的亮度译码块的大小,而PU的大小可以指代PU的亮度预测单元的大小。假设特定CU的大小是2Nx2N,则视频编码器200可以支持用于帧内预测的2Nx2N或NxN的PU大小、以及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似的对称的PU大小。视频编码器200和视频解码器300还可以支持针对用于帧间预测的2NxnU、2NxnD、nLx2N和nRx2N的PU大小的非对称分割。
在其中模式选择单元202不将CU进一步分割为PU的示例中,每个CU可以与亮度译码块和对应的色度译码块相关联。如上文,CU的大小可以指代CU的亮度译码块的大小。视频编码器200和视频解码器300可以支持2Nx2N、2NxN或Nx2N的CU大小。
作为一些示例,对于其它视频译码技术(诸如块内复制模式译码、仿射模式译码和线性模型(LM)模式译码),模式选择单元202经由与译码技术相关联的相应单元来生成用于正被编码的当前块的预测块。在一些示例中(诸如调色板模式译码),模式选择单元202可以不生成预测块,而是替代地生成指示基于所选择的调色板来重构块的方式的语法元素。在这样的模式下,模式选择单元202可以将这些语法元素提供给熵编码单元220以进行编码。
如上文所述,残差生成单元204接收用于当前块和对应的预测块的视频数据。然后,残差生成单元204生成用于当前块的残差块。为了生成残差块,残差生成单元204计算在预测块与当前块之间的逐样本差。
变换处理单元206将一种或多种变换应用于残差块,以生成变换系数的块(本文中被称为“变换系数块”)。变换处理单元206可以将各种变换应用于残差块以形成变换系数块。例如,变换处理单元206可以将离散余弦变换(DCT)、方向变换、Karhunen-Loeve变换(KLT)、或概念上类似的变换应用于残差块。在一些示例中,变换处理单元206可以对残差块执行多种变换,例如,初级变换和二次变换(诸如旋转变换)。在一些示例中,变换处理单元206不对残差块应用变换。
当根据AV1来操作时,变换处理单元206可以将一个或多个变换应用于残差块以生成变换系数的块(本文中被称为“变换系数块”)。变换处理单元206可以将各种变换应用于残差块以形成变换系数块。例如,变换处理单元206可以应用水平/垂直变换组合,其可以包括离散余弦变换(DCT)、非对称离散正弦变换(ADST)、翻转ADST(例如,逆序的ADST)和恒等变换(IDTX)。当使用恒等变换时,在垂直或水平方向之一上跳过变换。在一些示例中,可以跳过变换处理。
量化单元208可以对变换系数块中的变换系数进行量化,以产生经量化的变换系数块。量化单元208可以根据与当前块相关联的量化参数(QP)值来对变换系数块的变换系数进行量化。视频编码器200(例如,经由模式选择单元202)可以通过调整与CU相关联的QP值来调整被应用于与当前块相关联的变换系数块的量化程度。量化可能引起信息的损失,并且因此,经量化的变换系数可能具有与由变换处理单元206产生的原始变换系数相比较低的精度。
逆量化单元210和逆变换处理单元212可以将逆量化和逆变换分别应用于经量化的变换系数块,以从变换系数块重构残差块。重构单元214可以基于经重构的残差块和由模式选择单元202生成的预测块来产生与当前块相对应的重构块(尽管潜在地具有某种程度的失真)。例如,重构单元214可以将经重构的残差块的样本与来自由模式选择单元202生成的预测块的对应样本相加,以产生经重构的块。
滤波器单元216可以对经重构的块执行一个或多个滤波操作。例如,滤波器单元216可以执行去块操作以减少沿着CU的边缘的块状伪影。在一些示例中,可以跳过滤波器单元216的操作。
当根据AV1来操作时,滤波器单元216可以对经重构的块执行一个或多个滤波操作。例如,滤波器单元216可以执行去块操作以减少沿着CU的边缘的块状伪影。在其它示例中,滤波器单元216可以应用约束的定向增强滤波器(CDEF)(其可以在去块之后应用),并且可以包括基于估计的边缘方向来应用不可分离、非线性、低通定向滤波器。滤波器单元216还可以包括在CDEF之后应用的环路恢复滤波器,并且可以包括可分离的对称归一化维纳滤波器或双自导滤波器。
视频编码器200将经重构的块存储在DPB 218中。例如,在其中不执行滤波器单元216的操作的示例中,重构单元214可以将经重构的块存储到DPB 218。在其中执行滤波器单元216的操作的示例中,滤波器单元216可以将经滤波的重构块存储到DPB 218。运动估计单元222和运动补偿单元224可以从DPB 218取回从经重构的(并且潜在地经滤波的)块形成的参考图片,以对后续编码的图片的块进行帧间预测。另外,帧内预测单元226可以使用在DPB218中的当前图片的经重构的块来对当前图片中的其它块进行帧内预测。
通常,熵编码单元220可以对从视频编码器200的其它功能组件接收的语法元素进行熵编码。例如,熵编码单元220可以对来自量化单元208的经量化的变换系数块进行熵编码。作为另一示例,熵编码单元220可以对来自模式选择单元202的预测语法元素(例如,用于帧间预测的运动信息或用于帧内预测的帧内模式信息)进行熵编码。熵编码单元220可以对作为视频数据的另一示例的语法元素执行一个或多个熵编码操作,以生成经熵编码的数据。例如,熵编码单元220可以执行上下文自适应可变长度译码(CAVLC)操作、CABAC操作、可变-可变(V2V)长度译码操作、基于语法的上下文自适应二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作、指数哥伦布编码操作、或对数据的另一类型的熵编码操作。在一些示例中,熵编码单元220可以在其中语法元素未被熵编码的旁路模式下操作。
视频编码器200可以输出比特流,其包括重构切片或图片的块所需要的经熵编码的语法元素。具体地,熵编码单元220可以输出比特流。
根据AV1,熵编码单元220可以被配置为符号到符号自适应多符号算术译码器。AV1中的语法元素包括N个元素的字母表,并且上下文(例如,概率模型)包括N个概率的集合。熵编码单元220可以将概率存储为n比特(例如,15比特)累积分布函数(CDF)。熵编码单元22可以利用基于字母大小的更新因子来执行递归缩放,以更新上下文。
关于块描述了上文描述的操作。这样的描述应当被理解为用于亮度译码块和/或色度译码块的操作。如上文所述,在一些示例中,亮度译码块和色度译码块是CU的亮度分量和色度分量。在一些示例中,亮度译码块和色度译码块是PU的亮度分量和色度分量。
在一些示例中,不需要针对色度译码块重复关于亮度编码块执行的操作。作为一个示例,不需要重复用于识别用于亮度译码块的运动向量(MV)和参考图片的操作来识别用于色度块的MV和参考图片。确切而言,可以对用于亮度译码块的MV进行缩放以确定用于色度块的MV,并且参考图片可以是相同的。作为另一示例,对于亮度译码块和色度译码块,帧内预测过程可以是相同的。
以这种方式,视频编码器200表示视频编码器的示例,视频编码器包括:被配置为存储视频数据的存储器;以及一个或多个处理器,其在电路中实现并且被配置为:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
图10是示出可以执行本公开内容的技术的示例视频解码器300的框图。图10是出于解释的目的而提供的,并且不对如在本公开内容中广泛地例示和描述的技术进行限制。出于解释的目的,本公开内容根据VVC(ITU-T H.266,在开发中)和HEVC(ITU-T H.265)的技术描述了视频解码器300。然而,本公开内容的技术可以由被配置为其它视频译码标准的视频译码设备来执行。
在图10的示例中,视频解码器300包括译码图片缓冲器(CPB)存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310、滤波器单元312和解码图片缓冲器(DPB)134。CPB存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310、滤波器单元312和DPB 134中的任何一者或全部可以在一个或多个处理器中或者在处理电路中实现。例如,视频解码器300的单元可以被实现为一个或多个电路或逻辑元件,作为硬件电路的一部分或者作为处理器、ASIC或FPGA的一部分。此外,视频解码器300可以包括用于执行这些和其它功能的额外或替代的处理器或处理电路。
预测处理单元304包括运动补偿单元316和帧内预测单元318。预测处理单元304可以包括根据其它预测模式来执行预测的加法单元。作为示例,预测处理单元304可以包括调色板单元、块内复制单元(其可以形成运动补偿单元316的一部分)、仿射单元、线性模型(LM)单元等。在其它示例中,视频解码器300可以包括更多、更少或不同的功能组件。
当根据AV1来操作时,补偿单元316可以被配置为使用平移运动补偿、仿射运动补偿、OBMC和/或复合帧内帧间预测来对视频数据的译码块(例如,亮度译码块和色度译码块两者)进行解码,如上文所述。帧内预测单元318可以被配置为使用定向帧内预测、非定向帧内预测、递归滤波器帧内预测、CFL、块内复制(IBC)和/或调色板模式来对视频数据的译码块(例如,亮度译码块和色度译码块两者)进行解码,如上文所述。
CPB存储器320可以存储要由视频解码器300的组件解码的视频数据,诸如经编码的视频比特流。例如,可以从计算机可读介质110(图1)获得被存储在CPB存储器320中的视频数据。CPB存储器320可以包括存储来自经编码的视频比特流的经编码的视频数据(例如,语法元素)的CPB。此外,CPB存储器320可以存储除了经译码的图片的语法元素之外的视频数据,诸如表示来自视频解码器300的各个单元的输出的临时数据。DPB 314通常存储经解码的图片,视频解码器300可以输出经解码的图片,和/或在解码经编码的视频比特流的后续数据或图片时使用经解码的图片作为参考视频数据。CPB存储器320和DPB 314可以由诸如以下各项的各种存储器设备中的任何一种形成:动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻RAM(MRAM)、电阻RAM(RRAM)或其它类型的存储器设备。CPB存储器320和DPB 314可以由相同的存储器设备或单独的存储器设备来提供。在各个示例中,CPB存储器320可以与视频解码器300的其它组件在芯片上,或者相对于那些组件在芯片外。
另外或替代地,在一些示例中,视频解码器300可以从存储器120(图1)取回经译码的视频数据。也就是说,存储器120可以如上文所讨论地利用CPB存储器320来存储数据。同样,当视频解码器300的一些或全部功能是在要被视频解码器300的处理电路执行的软件中实现时,存储器120可以存储要被视频解码器300执行的指令。
示出了图10中所示的各个单元以帮助理解由视频解码器300执行的操作。这些单元可以被实现为固定功能电路、可编程电路、或其组合。类似于图9,固定功能电路指代提供特定功能并且关于可以执行的操作而预先设置的电路。可编程电路指代可以被编程以执行各种任务并且在可以执行的操作中提供灵活功能的电路。例如,可编程电路可以执行软件或固件,软件或固件使得可编程电路以通过软件或固件的指令定义的方式进行操作。固定功能电路可以执行软件指令(例如,以接收参数或输出参数),但是固定功能电路执行的操作的类型通常是不可变的。在一些示例中,这些单元中的一个或多个单元可以是不同的电路块(固定功能或可编程),并且在一些示例中,这些单元中的一个或多个单元可以是集成电路。
视频解码器300可以包括从可编程电路形成的ALU、EFU、数字电路、模拟电路和/或可编程核。在其中由在可编程电路上执行的软件执行视频解码器300的操作的示例中,片上或片外存储器可以存储视频解码器300接收并且执行的软件的指令(例如,目标代码)。
熵解码单元302可以从CPB接收经编码的视频数据,并且对视频数据进行熵解码以重新产生语法元素。预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310和滤波器单元312可以基于从比特流中提取的语法元素来生成经解码的视频数据。
通常,视频解码器300在逐块基础上重构图片。视频解码器300可以单独地对每个块执行重构操作(其中,当前正在被重构(即,被解码)的块可以被称为“当前块”)。
熵解码单元302可以对定义经量化的变换系数块的经量化的变换系数的语法元素以及诸如量化参数(QP)和/或变换模式指示之类的变换信息进行熵解码。逆量化单元306可以使用与经量化的变换系数块相关联的QP来确定量化程度,并且同样地,确定供逆量化单元306应用的逆量化程度。逆量化单元306可以例如执行按位左移操作以对经量化的变换系数进行逆量化。逆量化单元306从而可以形成包括变换系数的变换系数块。
在逆量化单元306形成变换系数块之后,逆变换处理单元308可以将一种或多种逆变换应用于变换系数块,以生成与当前块相关联的残差块。例如,逆变换处理单元308可以将逆DCT、逆整数变换、逆Karhunen-Loeve变换(KLT)、逆旋转变换、逆方向变换或另一逆变换应用于变换系数块。
此外,预测处理单元304根据由熵解码单元302熵解码的预测信息语法元素来生成预测块。例如,如果预测信息语法元素指示当前块是经帧间预测的,则运动补偿单元316可以生成预测块。在这种情况下,预测信息语法元素可以指示在DPB 314中的从其取回参考块的参考图片、以及标识相对于当前块在当前图片中的位置而言参考块在参考图片中的位置的运动向量。运动补偿单元316通常可以以与关于运动补偿单元224(图9)所描述的方式基本类似的方式来执行帧间预测过程。
根据本公开内容的技术,运动补偿单元316可以确定确定性边界框,从该确定性边界框检索参考图片的参考样本(例如,被存储在DPB 314中),以针对视频数据的当前块执行DMVD。对于各种DMVD技术中的任何一种(例如,模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)和/或多通道DMVR中的每一者),确定性边界框的大小可以是相同的。
为了确定确定性边界框,运动补偿单元316可以最初从当前块的相邻块检索未经细化的运动向量。未经细化的运动向量可以是使用比特流中的数据为相邻块编码(和存储)的运动向量,而尚未使用各种DMVD技术中的任何一种进行细化。因此,运动补偿单元316可以在对相邻块进行编码之前对用于相邻块的运动向量进行细化,但是可以使用用于相邻块的运动向量的未经细化版本来确定针对当前块的确定性边界框。
使用用于相邻块的未经细化的运动向量,运动补偿单元316可以识别参考图片中的确定性边界框的中心样本。如果中心样本位于参考图片中的位置(x,y),则确定性边界框可以具有(x-N,y-N)、(x-N,y+N)、(x+N,y-N)和(x+N,y+N)的顶点,其中N是正整数值。N可以是预配置的值、根据内部运动向量存储精度的倍数计算的值、或者视频编码器200在比特流中(例如,在序列参数集(SPS)、图片参数集(PPS)、切片头部信息、块头部信息等中)以信号通知的值。再次,对于各种DMVD技术中的每一者,N可以是相同的。
然后,运动补偿单元316可以执行本公开内容的各种DMVD技术(或其它类似DMVD的技术),在确定性边界框内执行细化搜索。运动补偿单元316可以使用当前块的先前译码块到一个或多个未经细化的运动向量来执行运动场重构阶段,然后使用一个或多个未经细化的运动向量执行参考样本提取阶段,以检索确定性边界框内的参考样本。然后,运动补偿单元316可以使用所检索到的参考样本来执行DMVD技术。
在一些示例中,当运动补偿单元316执行TM时,运动补偿单元316可以仅使用相邻重构样本来形成当前块模板。
最终,在使用本公开内容的一种或多种DMVD技术推导或细化一个或多个运动向量之后,运动补偿单元316可以获得参考样本,以使用运动向量来生成预测块。预测块的形成可以在运动补偿阶段期间执行。例如,运动补偿单元316可以使用运动向量来取回参考块的数据。作为另一示例,如果运动向量具有分数样本精度,则运动补偿单元316可以根据一个或多个内插滤波器来对用于预测块的值进行内插。此外,对于双向帧间预测,运动补偿单元316可以取回用于由相应的运动向量标识的两个参考块的数据并且例如通过逐样本平均或加权平均来将所取回的数据进行组合。
作为另一示例,如果预测信息语法元素指示当前块是经帧内预测的,则帧内预测单元318可以根据由预测信息语法元素指示的帧内预测模式来生成预测块。再次,帧内预测单元318通常可以以与关于帧内预测单元226(图9)所描述的方式基本上类似的方式来执行帧内预测过程。帧内预测单元318可以从DPB 314取回当前块的相邻样本的数据。
重构单元310可以使用预测块和残差块来重构当前块。例如,重构单元310可以将残差块的样本与预测块的对应样本相加来重构当前块。
滤波器单元312可以对经重构的块执行一个或多个滤波操作。例如,滤波器单元312可以执行去块操作以减少沿着经重构的块的边缘的块效应伪影。不一定在所有示例中都执行滤波器单元312的操作。
视频解码器300可以将经重构的块存储在DPB 314中。例如,在其中不执行滤波器单元312的操作的示例中,重构单元310可以将经重构的块存储到DPB 314中。在其中执行滤波器单元312的操作的示例中,滤波器单元312可以将经滤波的重构块存储到DPB 314。如上文所讨论的,DPB 314可以将参考信息(诸如用于帧内预测的当前图片以及用于后续运动补偿的先前解码的图片的样本)提供给预测处理单元304。此外,视频解码器300可以从DPB314输出经解码的图片(例如,经解码的视频),以用于在诸如图1的显示设备118之类的显示设备上的后续呈现。
以这种方式,视频解码器300表示视频解码器的示例,视频解码器包括:被配置为存储视频数据的存储器;以及一个或多个处理器,其在电路中实现并且被配置为:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
图11是示出示例与运动向量差合并(MMVD)搜索点的概念图。关于图11描述了本公开内容的某些技术(其可以由上文的视频编码器200和视频解码器300执行)。具体地,边界框可以表示为至少以下三个方面的函数:
·未经细化的MV(即,图11中的v0),其从因果相邻块推断出,该因果相邻块不携带通过DMVD方法自导出或推断的细化向量信息;
·在当前块(即,图11中描绘的当前帧中的第二块)中使用的DMVD方法的搜索范围大小(表示为SR,其指定给定的DMVD方法可以在最多N个像素范围内向着以给定的初始搜索点为中心的每个方向进行搜索,其中N是通过使用2-4、2-3、2-2、2-1、1、2、3、4、5、6、7、8......乘以内部MV存储精度(例如,HEVC中的4、VVC中的16)来预定义的或针对每个图片/子图片/切片/瓦片以信号通知的);
·内插滤波器长度(表示为L)。
在不失简单性的情况下下,图11用作描述受约束的搜索范围的示例。假设当前帧中存在第一块,针对第一块,视频译码器(视频编码器200或视频解码器300)从其相邻块推断MV(即,v0)并且通过DMVD方法自导出其细化向量信息(即,d0)。此外,视频译码器针对第二块(其是当前块)从第一块中推断运动信息,并且通过DMVD方法推导细化向量信息(即,d1)。视频译码器可以分别根据用于两个块的v0+d0和v0+d0+d1执行最终运动补偿。如果存在第三块,针对第三块,视频译码器从第二块中推断运动信息,则最终的MV可以表示为v0+(∑i∈{0,1}di)+d2。这些d0、d1、d2......项仅用于运动补偿,并且不一定用于确定搜索范围。
与传统的DMVD(其是以视频译码器确定最终相邻块(例如,v0+d0)是形成预期搜索范围(即,图11中所示的[v0+d0-(SR,SR),v0+d0+(SR,SR)])的中心为前提的)不同,本示例不将经细化的运动向量传播到下一块。反而,视频译码器仅基于推断出的相邻块运动的未经细化的版本(即,v0)来确定其实际搜索范围。因此,实际搜索范围可以通过[v0-(SR,SR),v0+(SR,SR)]来表示。由于没有来自相邻块的细化向量信息被携带,因此要针对当前块提取的参考样本变为确定性的,其大小是(W+L+2SR)x(H+L+2SR),其中W和H分别是当前块的宽度和高度。以这种方式,搜索范围中心可以由相邻块的未经细化的运动向量标识。
以下示例描述了对受约束的搜索范围的各种扩展(其可以单独地或以各种方式组合使用):
·在一些示例中,视频编码器200和视频解码器300可以执行DMVD,从实际搜索范围内的任何MV开始,并且将MV细化限制为实际搜索范围。例如,视频编码器200和视频解码器300可以从v0+d0指向实际搜索范围内的位置开始。
·在一些示例中,视频编码器200和视频解码器300可以从v0指向实际搜索范围内的位置开始执行DMVD。
·在一些示例中,视频编码器200和视频解码器300可以进一步将搜索范围大小裁剪为在预期搜索范围与实际搜索范围之间的重叠区域。
·在一些示例中,视频编码器200和视频解码器300可以在实际搜索范围内或在预期搜索范围与实际搜索范围之间的重叠区域内利用全搜索模式执行DMVD。
·在一些示例中,视频编码器200和视频解码器300可以提取小于(W+L+2SR)x(H+L+2SR)的参考样本的数量,诸如(W+L'+2SR)x(H+L'+2SR),其中L'∈[0,1,2,...,L],并且执行与帧级别参考样本填充相同的填充方法,以将(W+L'+2SR)x(H+L'+2SR)的大小扩展为(W+L+2SR)x(H+L+2SR)。
·在一些示例中,视频编码器200和视频解码器300可以进一步被配置为对BM、DMVR和多通道DMVR实现更限制性的约束,以使所导出的细化运动信息中的每一者在其相应的实际搜索范围内。由于在双预测情况下,它们以在两个参考图片之间的对称细化向量为特征,因此可访问区域有时可能比实际搜索范围更受限制。例如,如果L0的推断出的未经细化的MV已经到达其实际搜索范围的左边界(并且因此它不能向左方向搜索),则这些DMVD方法不能向右方向搜索L1 MV。也就是说,由于搜索可能不在搜索区域的中心处开始,因此搜索可能从由一个运动向量标识的点向着搜索区域的一侧进行,而另一搜索可能从由另一运动向量标识的不同点向着搜索区域的另一侧进行。这可以避免某些边界搜索点。另外或替代地,视频译码器可以针对穿越搜索区域边界(确定性边界框)的运动向量执行运动向量裁剪。
·在另一示例中,当推断出的未经细化的MV中的一个MV命中其实际搜索范围的边界,而其它MV没有命中边界时,可以通过MV剪裁来放宽对称细化向量的特征。例如,即使L0的推断出的未经细化的MV已经到达其实际搜索范围的左边界,这些DMVD方法仍可以向着右方向搜索L1 MV,因为在计算DMVD匹配成本之前,在搜索过程期间推导出的MV或L0始终被裁剪到最近的可用位置。
·在一些示例中,视频编码器200和视频解码器300可以当在参考图片中的任一参考图片上发生超范围情况(即最终运动补偿将超出实际搜索范围)时,裁剪两通道BDOF(在于2020年12月22日提交的美国临时申请No.63/129,221中描述的多通道DMVR的子过程)的推导出的细化向量信息。
ο在一些示例中,视频编码器200和视频解码器300可以将双通道BDOF的推导出的细化向量信息重置为零向量。
ο在一些示例中,视频编码器200和视频解码器300可以针对每张参考图片独立地裁剪推导出的细化向量信息。
ο在一些示例中,视频编码器200和视频解码器300可以找到跨参考图片共享的最小值(m),其被添加到参考图片的推导出的细化向量信息的顶部上,并且从另一参考图片的推导出的细化向量信息中减去,以确保超范围情况不发生在两个参考图片上。这可以确保使用BDOF找到的运动向量差(delta)对于两个参考块可以保持对称。例如,假设运动向量指向边界外的区域,而“向量m”是该运动向量指回到搜索区域中所需要的最小delta向量。边界外运动向量加上向量m可以确保边界外情况不发生,并且然后向量m可以被馈送到另一运动向量,以确保对称性。
·在一些示例中,视频编码器200和视频解码器300可以对准所有DMVD方法上的搜索范围。由于仅使用一个SR,因此视频编码器200和视频解码器300在计算从参考图片提取的参考样本的大小之前,不需要识别用于某些块的DMVD方法。
·在一些示例中,视频编码器200和视频解码器300可以将在多通道DMVR中级联的所有DMVD方法的搜索范围统一在[v0-(SR,SR),v0+(SR,SR)]内,使得视频编码器200和视频解码器300不需要识别使用的是哪种DMVR方法。多通道DMVR在计算从参考图片提取的参考样本的大小之前通常使用较大的搜索范围。
·在一些示例中,视频编码器200和视频解码器300可以进一步被配置具有对自推导细化向量信息(例如,d1)的限制,其避免在DMVD方法是TM时发生无细化情况。换句话说,TM的输入MV不能与输出MV完全相同。另一示例仅当TM针对单预测块执行搜索时,才施加限制。
在各种DMVD方法(例如,TM、BM、DMVR和多通道DMVR)中,视频译码器在运动补偿阶段处推导细化向量信息。因此,在运动场重构和参考样本提取阶段期间,细化向量信息是未知项。这就是上文讨论的将搜索范围限制为[v0-(SR,SR),v0+(SR,SR)]的技术背后的关键点。因此,无论∑idi如何跨空间块累积,实际搜索范围总是有边界的。
另外或替代地,视频编码器200和视频解码器300可以被配置具有对空间运动向量预测的约束,以避免使用细化向量信息来重构经译码的块的运动场。在本示例中,在运动场重构阶段和参考样本提取阶段期间,未经细化的MV可以被传播到后续块,以用于空间运动向量预测,而经细化的MV(即,未经细化的MV加上推断出的细化向量信息(诸如图11中的来自相同的相邻块的第二块的d0)以及自推导的细化向量信息(诸如当被执行时的d1))仅在运动补偿阶段中被携带到后续块。因此,未经细化的运动向量可以用于运动向量传播和运动向量推断两者。可以在运动补偿阶段期间推断相邻的经细化的运动向量,使得可以跨块/CU执行顺序运动补偿。
由于细化向量信息在运动补偿阶段之前是未知的,视频编码器200和视频解码器300可能必须根据上述SR和L'的配置来提取更多的参考样本。因此,在参考样本提取阶段期间,无论当前块携带从其相邻块推断的细化向量信息、由其自身推导的细化向量信息、或两者的组合,所提取的参考样本的最大数量被限定为(W+L'+2SRmax)x(H+L'+2SRmax),其中SRmax是编解码器中所有支持的DMVR方法的最大者。可以检索与DMVD中针对块执行的参考样本相同数量的参考样本。
这些技术可以应用于扩展受约束的搜索范围,如下:
·在一些示例中,视频编码器200和视频解码器300可以基于来自相邻块的未经细化的MV来构建AMVP和合并候选列表。因此,未经细化的MV可以用于执行修剪过程,并且重构当前图片的运动场。
·在一些示例中,视频编码器200和视频解码器300可以仅使用未经细化的MV来生成仿射AMVP、仿射合并和仿射MMVD合并模式的所构建的候选。细化向量信息既不用于运动向量重构阶段,也不用于参考提取阶段(即,与L'和SRmax无关)和运动补偿阶段。
·在一些示例中,视频编码器200和视频解码器300可以仅使用未经细化的MV作为子块TMVP模式的其运动源向量(即,左空间候选运动)。
·在一些示例中,视频编码器200和视频解码器300可以允许其它帧间预测模式(例如,MMVD、CIIP、OBMC、多假设预测)在运动补偿阶段期间使用从相邻块推断出的经细化的MV。另一示例允许一些预测模式(例如,MMVD、CIIP、OBMC、多假设预测)在运动补偿阶段期间使用从相邻块推断出的未经细化的MV。
·在一些示例中,视频编码器200和视频解码器300可以仅存储经细化的MV,以供后续帧执行时间运动向量预测。
ο在另一示例中,视频编码器200和视频解码器300可以仅存储未经细化的MV,以供后续帧执行时间MV预测。
ο在这两个示例中,视频编码器200和视频解码器300可以将这些技术应用于去块滤波,以计算边界强度。
另外或替代地,视频编码器200和视频解码器300可以被配置具有对访问用于当前块模板生成的相邻重构样本的约束。可以防止视频编码器200和视频解码器300访问相邻的重构样本,以形成用于模板匹配的当前块模板。反而,视频编码器200和视频解码器300可以被配置具有以下各种替换技术中的任何一种:
·在一些示例中,视频编码器200和视频解码器300可以使用从当前块的相邻块推断出的经细化的MV来生成预测块(其与当前块模板共址),以替换当前块模板。分别用于生成基于预测的当前块模板和搜索区域样本的内插滤波器不必总是相同。因此,视频编码器200和视频解码器300可以使用从合并候选列表推断出的经细化的运动向量来生成当前块模板。
·在一些示例中,视频编码器200和视频解码器300可以访问所有相邻块,并且使用它们的运动信息(其在运动补偿阶段中使用)来生成预测块来替换当前块模板。与先前的示例不同,本示例利用多个补丁(patch)来形成预测块,因为当前块周围的因果相邻块通常具有不同的运动。也就是说,在本例中,如果相邻块的运动向量在当前块模板的区域内,则可以直接使用这些相邻块的所有运动向量。有时,相邻块可以是帧内译码的(或通过其它预定义的预测模式集合译码的)。这种异常情况可以在以下技术中进行处理。
ο在一些示例中,视频编码器200和视频解码器300可以丢弃这些帧内块,并且在计算模板匹配成本的过程中不对丢弃的帧内块进行计数。
ο在一些示例中,视频编码器200和视频解码器300可以通过填充最近的可用MV来填充用于这些相邻帧内块的MV。
ο在一些示例中,视频编码器200和视频解码器300可以通过基于两个最近的可用MV执行双线性内插,来填充用于这些相邻帧内块的MV。
ο在一些示例中,当在当前块的直接因果相邻区域中存在太多的帧内译码块时,视频编码器200和视频解码器300可以绕过TM的细化过程。比率是预定义的,诸如如果整个当前块模板的四分之一、二分之一或四分之三的样本与帧内译码块共址,则绕过TM。
ο在一些示例中,视频编码器200和视频解码器300可以禁用上模板块和左模板块中的任一者的使用。如果模板块与超过预定义比率的特定数量的帧内译码样本共址,则该模板块被禁用并且不在TM中使用。
·在一些示例中,如果从空间相邻块推断出经细化的MV,则视频编码器200和视频解码器300可以仅基于上模板块和左模板块中的任一者来执行模板匹配。
ο当推断出的空间相邻块来自相对于当前块的上方(或右上方)时,在模板匹配中可以仅使用上方模板。
ο当推断出的空间相邻块来自相对于当前块的左侧(或左下)时,在模板匹配中可以仅使用左侧模板。
·在一些示例中,视频编码器200和视频解码器300可以将部分残差重构信息添加到当前块模板,作为实际模板的近似,如下:
ο在一些示例中,视频编码器200和视频解码器300可以在当前块模板的共址补丁的顶部上添加每个相邻变换单元(TU)的重构DC值。
ο在一些示例中,视频编码器200和视频解码器300当根据用于相邻TU的MTS模式选择不使用DCT时,可以在当前块模板的共址补丁的顶部上不添加任何内容。
ο在一些示例中,视频编码器200和视频解码器300当使用LFNST时可以执行LFNST以计算量化系数和DC系数,其可以被重构并且添加到当前块模板的共址补丁的顶部上。
ο在一些示例中,视频编码器200和视频解码器300当使用LFNST时可以使用LFNST的第一系数,就好像第一系数是实际经量化的DC系数一样,并且然后可以对该LFNST系数进行逆变换量化,以获得DC值的估计,然后将该估计添加到当前块模板的共址补丁的顶部上。
ο在一些示例中,无论是否启用LMCS,视频编码器200和视频解码器300都可以将重构或估计的DC值直接添加到当前块模板的共址补丁的顶部上。
·在一些示例中,当启用LMCS时,视频编码器200和视频解码器300可以不将重构或估计的DC值添加到当前块模板的共址补丁的顶部上。相反,共址补丁通过前向LMCS转换来转换,与重构或估计的DC值相加,并且然后通过逆LMCS转换来转换回来。
在一些示例中,视频编码器200和视频解码器300可以被配置为避免使用利用某些模式的相邻样本用于其在模板中的译码。此类样本可以被视为不可用。换句话说,仅使用允许的预测模式的相邻样本可以在模板中被利用。可以利用可用的样本替换不可用的样本。在另一示例中,如果模板中存在任何不可用的样本,则不应用模板匹配细化。
不允许的预测模式可以包括使用任何种类的传播或要求顺序块处理的模式:
·帧内预测
·块内复制预测
·解码侧推导的方法,诸如模板匹配或类似方法
·照明补偿方法
图12是示出根据本公开内容的技术的用于对当前块进行编码的示例方法的流程图。当前块可以包括当前CU。尽管关于视频编码器200(图1和图9)进行了描述,但是应当理解的是,其它设备可以被配置为执行与图12的方法类似的方法。
在该示例中,视频编码器200最初预测当前块(350)。例如,视频编码器200可以形成用于当前块的预测块。具体而言,视频编码器200可以执行帧间预测以预测块,包括根据本公开内容的各种技术中的任何一种技术单独地或以任何组合执行解码器侧运动向量推导(DMVD),以形成用于当前块的运动向量。然后,视频编码器200可以使用运动向量来形成预测块。然后,视频编码器200可以计算用于当前块的残差块(352)。为了计算残差块,视频编码器200可以计算在原始的未经译码的块与用于当前块的预测块之间的差。然后,视频编码器200可以对残差块进行变换以及对残差块的变换系数进行量化(354)。接下来,视频编码器200可以扫描残差块的经量化的变换系数(356)。在扫描期间或在扫描之后,视频编码器200可以对变换系数进行熵编码(358)。例如,视频编码器200可以使用CAVLC或CABAC来对变换系数进行编码。然后,视频编码器200可以输出块的经熵编码的数据(360)。
视频编码器200还可以在对当前块进行编码之后对当前块进行解码,以使用当前块的解码版本作为用于后续译码的数据的参考数据(例如,在帧间或帧内预测模式下)。因此,视频编码器200可以对系数进行逆量化和逆变换以重新产生残差块(362)。视频编码器200可以将残差块与预测块组合以形成经解码的块(364)。然后,视频编码器200可以将经解码的块存储在DPB 218中(366)。
图13是示出根据本公开内容的技术的用于对视频数据的当前块进行解码的示例方法的流程图。当前块可以包括当前CU。尽管关于视频解码器300(图1和图10)进行了描述,但是应当理解的是,其它设备可以被配置为执行与图13的方法类似的方法。
视频解码器300可以接收用于当前块的经熵编码的数据(例如,经熵编码的预测信息和用于与当前块相对应的残差块的变换系数的经熵编码的数据)(370)。视频解码器300可以对经熵编码的数据进行熵解码以确定用于当前块的预测信息并且重新产生残差块的变换系数(372)。视频解码器300可以例如使用如由用于当前块的预测信息指示的帧内或帧间预测模式来预测当前块(374),以计算用于当前块的预测块。具体而言,视频解码器300可以执行帧间预测以预测块,包括根据本公开内容的各种技术中的任何一种技术单独地或以任何组合执行解码器侧运动向量推导(DMVD),以形成用于当前块的运动向量。然后,视频解码器300可以使用运动向量来形成预测块。然后,视频解码器300可以对所重新产生的变换系数进行逆扫描(376),以创建经量化的变换系数的块。然后,视频解码器300可以对变换系数进行逆量化并且将逆变换应用于变换系数以产生残差块(378)。最终,视频解码器300可以通过将预测块和残差块进行组合来对当前块进行解码(380)。
图14是示出用于使用根据本公开内容的技术推导和/或细化的运动向量对当前数据块进行译码的示例方法的流程图。图14的方法可以由视频编码器200(例如,在图12的方法的步骤350期间)或由视频解码器300(例如,在图13的方法的步骤374期间)执行。出于示例的目的,尽管图14的方法是关于视频解码器300来解释的,但是某些方面还关于视频编码器200来解释。
最初,视频解码器300可以对用于定义相邻块运动向量(NBMV)的相邻块的运动信息进行译码(解码)(400)。例如,视频解码器300可以对合并索引或AMVP运动信息进行解码。然后,视频解码器300可以使用经解码的运动信息来形成未经细化的运动向量,作为用于相邻块的NBMV。视频解码器300可以将未经细化的运动向量与相邻块一起存储为未经细化的NBMV。此外,视频解码器300可以细化NBMV(例如,使用本公开内容的各种DMVD技术中的任何一种技术),以形成经细化的NBMV(402),并且使用经细化的NBMV来预测和译码相邻块(404)。当由视频编码器200执行时,视频编码器200可以对运动信息进行编码。
然后,视频解码器300可以检索与相邻块一起存储的未经细化的NBMV,并且使用未经细化的NBMV来确定用于当前块的确定性边界框(406)。也就是说,未经细化的NBMV可能指向确定性边界框的中心样本。视频解码器300可以进一步确定,确定性边界框在中心样本的上方、下方、左侧和右侧扩展N个样本,其中N可以是正整数值,其对于各种DMVD技术中的任何一种都是相同的。
视频解码器300可以进一步从参考图片中检索确定性边界框内的参考样本(408)。视频解码器300还可以使用在确定性边界框内检索到的参考样本执行DMVD(410),以形成用于当前块的DMVD生成的运动向量。然后,视频解码器300可以使用DMVD生成的运动向量生成预测块(412)。然后,视频解码器300可以使用预测块对当前块进行译码(解码)(414)。例如,视频解码器300可以解码来自比特流的经量化的变换系数,对经量化的变换系数进行逆量化和逆变换以形成残差块,然后将预测块的样本与残差块的共址样本进行最后,以最终解码(重构)当前块。视频编码器200可以例如通过将残差块计算为在当前块与预测块之间的逐样本差来使用预测块对当前块进行编码和解码/重构,对残差块进行变换和量化,并且对残差块的所得到的经量化的变换系数进行编码。视频编码器200可以以与上文关于视频解码器300讨论的方式基本类似的方式对块进行解码。
以这种方式,图3的方法表示译码(例如,编码或解码)视频数据的块的方法的示例,包括:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
以下条款概述了本公开内容的某些技术:
条款1:一种对视频数据进行解码的方法,该方法包括:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款2:根据条款1所述的方法,推导运动向量包括:从当前块的相邻块推断未经细化的运动向量;以及对未经细化的运动向量进行细化以形成用于当前块的运动向量。
条款3:根据条款1和2中任一项所述的方法,其中,确定确定性边界框包括:从当前块的相邻块推断用于当前块的未经细化的运动向量;以及将确定性边界框确定为具有包括由未经细化的运动向量指示的样本中的N个样本内的样本的区域。
条款4:根据条款3所述的方法,其中,N是根据内部运动向量存储精度的倍数确定的预定义值。
条款5:根据条款1-4中任一项所述的方法,其中,确定确定性边界框包括根据用于DMVD的内插滤波器长度来确定确定性边界框。
条款6:根据条款1-5中任一项所述的方法,推导运动向量包括在确定性边界框内开始执行运动搜索。
条款7:根据条款1-6中任一项所述的方法,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
条款8:一种对视频数据进行解码的方法,该方法包括:根据解码器侧运动向量推导(DVMD)来推导用于视频数据的当前块的运动向量,包括:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段;使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段,以生成用于当前块的预测块;以及使用预测块对当前块进行解码。
条款9:一种方法,包括条款1-7中任一项的方法与条款8的方法的组合。
条款10:根据条款8和9中任一项所述的方法,还包括:使用先前译码块的一个或多个未经细化的运动向量,来生成当前块的运动向量候选列表。
条款11:一种对视频数据进行解码的方法,该方法包括:根据用于解码器侧运动向量推导(DVMD)的模板匹配(TM),来推导用于视频数据的当前块的运动向量,包括:仅使用相邻重构样本来形成用于TM的当前块模板;使用运动向量来生成用于当前块的预测块;以及使用预测块对当前块进行解码。
条款12:一种方法,包括条款1-10中任一项的方法与条款11的方法的组合。
条款13:根据条款1-12中任一项所述的方法,还包括:在对当前块进行解码之前,对当前块进行编码。
条款14:一种用于对视频数据进行解码的设备,该设备包括用于执行根据条款1-13中任一项所述的方法的一个或多个单元。
条款15:根据条款14所述的设备,其中,所述一个或多个单元包括在电路中实现的一个或多个处理器。
条款16:根据条款14和15中任一项所述的设备,还包括:被配置为显示经解码的视频数据的显示器。
条款17:根据条款14-16中任一项所述的设备,其中,所述设备包括以下各项中的一项或多项:相机、计算机、移动设备、广播接收机设备、或机顶盒。
条款18:根据条款14-17所述的设备,还包括:被配置为存储视频数据的存储器。
条款19:一种其上存储有指令的计算机可读存储介质,所述指令在被执行时使得用于对视频数据进行解码的设备的处理器执行根据条款1-13中任一项所述的方法。
条款20:一种用于对视频数据进行解码的设备,该设备包括:用于确定确定性边界框的单元,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);用于根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量的单元;用于使用运动向量来形成预测块的单元;以及用于使用预测块对当前块进行解码的单元。
条款21:一种用于对视频数据进行解码的设备,该设备包括:用于根据解码器侧运动向量推导(DVMD)来推导用于视频数据的当前块的运动向量的单元,包括:用于使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段的单元;以及用于使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段的单元;用于使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段以生成用于当前块的预测块的单元;以及用于使用预测块对当前块进行解码的单元。
条款22:一种用于对视频数据进行解码的设备,该设备包括:用于根据用于解码器侧运动向量推导(DVMD)的模板匹配(TM)来推导用于视频数据的当前块的运动向量的单元,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板;用于使用运动向量来生成用于当前块的预测块的单元;以及用于使用预测块对当前块进行解码的单元。
条款23:一种对视频数据进行解码的方法,该方法包括:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款24:根据条款23所述的方法,其中,推导运动向量包括:从当前块的相邻块检索未经细化的运动向量;对未经细化的运动向量进行细化,以形成用于当前块的运动向量。
条款25:根据条款23所述的方法,其中,确定确定性边界框包括:对用于当前块的相邻块的运动信息进行解码,该运动信息包括定义相邻块运动向量的数据;以及使用相邻块运动向量来确定确定性边界框。
条款26:根据条款25所述的方法,还包括:对相邻块运动向量进行细化以形成经细化的相邻块运动向量;使用经细化的相邻块运动向量来预测相邻块。
条款27:根据条款25所述的方法,其中,确定确定性边界框包括:将确定性边界框确定为具有包括在由相邻块运动向量指示的样本中的N个样本内的样本的区域。
条款28:根据条款27所述的方法,其中,N是根据内部运动向量存储精度的倍数确定的预定义的值。
条款29:根据条款27所述的方法,其中,对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)或多通道DMVR中的每一者,N都是相同的。
条款30:根据条款23所述的方法,其中,确定确定性边界框包括根据用于DMVD的内插滤波器长度来确定确定性边界框。
条款31:根据条款23所述的方法,其中,推导运动向量包括在确定性边界框内开始执行运动搜索。
条款32:根据条款23所述的方法,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
条款33:根据条款23所述的方法,其中,推导运动向量包括:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,形成预测块包括使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段,以生成用于当前块的预测块。
条款34:根据条款33所述的方法,还包括使用先前译码块的一个或多个未经细化的运动向量来生成用于当前块的运动向量候选列表。
条款35:根据条款23所述的方法,其中,根据DMVD推导用于当前块的运动向量包括根据模板匹配(TM)来推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款36:根据条款23所述的方法,还包括:在对当前块进行解码之前,对当前块进行编码。
条款37:一种用于对视频数据进行解码的设备,该设备包括:存储器,其被配置用于存储视频数据;以及一个或多个处理器,其在电路中实现并且被配置用于:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款38:根据条款37所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为:从当前块的相邻块检索未经细化的运动向量;以及对未经细化的运动向量进行细化,以形成用于当前块的运动向量。
条款39:根据条款37所述的设备,其中,为了确定确定性边界框,一个或多个处理器被配置为:对用于当前块的相邻块的运动信息进行解码,该运动信息包括定义相邻块运动向量的数据;以及使用相邻块运动向量来确定确定性边界框。
条款40:根据条款39所述的设备,其中,一个或多个处理器还被配置为:对相邻块运动向量进行细化以形成经细化的相邻块运动向量;以及使用经细化的相邻块运动向量来预测相邻块。
条款41:根据条款39所述的设备,其中,一个或多个处理器被配置为:将确定性边界框确定为具有包括在由相邻块运动向量指示的样本中的N个样本内的样本的区域。
条款42:根据条款41所述的设备,其中,N是根据内部运动向量存储精度的倍数确定的预定义的值。
条款43:根据条款41所述的设备,其中,对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的每一者,N都是相同的。
条款44:根据条款37所述的设备,其中,一个或多个处理器被配置为:根据用于DMVD的内插滤波器长度来确定确定性边界框。
条款45:根据条款37所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为在确定性边界框内开始执行运动搜索。
条款46:根据条款37所述的设备,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
条款47:根据条款37所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,为了形成预测块,一个或多个处理器被配置为使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段,以生成用于当前块的预测块。
条款48:根据条款47所述的设备,其中,一个或多个处理器被配置为:使用先前译码块的一个或多个未经细化的运动向量来生成用于当前块的运动向量候选列表。
条款49:根据条款37所述的设备,其中,一个或多个处理器被配置为:根据模板匹配(TM)来推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款50:根据条款37所述的设备,其中,一个或多个处理器还被配置为:在对当前块进行解码之前,对当前块进行编码。
条款51:根据条款37所述的设备,还包括:被配置为显示经解码的视频数据的显示器。
条款52:根据条款37所述的设备,其中,该设备包括相机、计算机、移动设备、广播接收机设备、或机顶盒中的一者或多者。
条款53:一种其上存储有指令的计算机可读存储介质,这些指令当被执行时使得处理器进行以下操作:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款54:根据条款53所述的计算机可读存储介质,其中,使得处理器推导运动向量的指令包括使得处理器进行以下操作的指令:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,使得处理器形成预测块的指令包括使得处理器进行以下操作的指令:使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段以生成用于当前块的预测块。
条款55:根据条款53所述的计算机可读存储介质,其中,使得处理器根据DMVD来推导用于当前块的运动向量的指令包括使得处理器进行以下操作的指令:根据模板匹配(TM)推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款56:一种用于对视频数据进行解码的设备,该设备包括:用于确定确定性边界框的单元,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);用于根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量的单元;用于使用运动向量来形成预测块的单元;以及用于使用预测块对当前块进行解码的单元。
条款57:根据条款56所述的设备,其中,用于推导运动向量的单元包括:用于使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段的单元;以及用于使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段的单元,并且其中,用于形成预测块的单元包括用于使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段以生成用于当前块的预测块的单元。
条款58:根据条款56所述的设备,其中,用于根据DMVD来推导用于当前块的运动向量的单元包括用于根据模板匹配(TM)来推导用于当前块的运动向量的单元,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款59:一种对视频数据进行解码的方法,该方法包括:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款60:根据条款59所述的方法,其中,推导运动向量包括:从当前块的相邻块检索未经细化的运动向量;对未经细化的运动向量进行细化,以形成用于当前块的运动向量。
条款61:根据条款59和60中任一项所述的方法,其中,确定确定性边界框包括:对用于当前块的相邻块的运动信息进行解码,该运动信息包括定义相邻块运动向量的数据;以及使用相邻块运动向量来确定确定性边界框。
条款62:根据条款61所述的方法,还包括:对相邻块运动向量进行细化以形成经细化的相邻块运动向量;使用经细化的相邻块运动向量来预测相邻块。
条款63:根据条款61和62中任一项所述的方法,其中,确定确定性边界框包括将确定性边界框确定为具有包括在由相邻块运动向量指示的样本中的N个样本内的样本的区域。
条款64:根据条款63所述的方法,其中,N是根据内部运动向量存储精度的倍数确定的预定义的值。
条款65:根据条款63和64中任一项所述的方法,其中,对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)或多通道DMVR中的每一者,N都是相同的。
条款66:根据条款59-65中任一项所述的方法,其中,确定确定性边界框包括根据用于DMVD的内插滤波器长度来确定确定性边界框。
条款67:根据条款59-66中任一项所述的方法,其中,推导运动向量包括在确定性边界框内开始执行运动搜索。
条款68:根据条款59-67中任一项所述的方法,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
条款69:根据条款59-68中任一项所述的方法,其中,推导运动向量包括:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,形成预测块包括使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段,以生成用于当前块的预测块。
条款70:根据条款69所述的方法,还包括:使用先前译码块的一个或多个未经细化的运动向量,来生成用于当前块的运动向量候选列表。
条款71:根据条款59-70中任一项所述的方法,其中,根据DMVD来推导用于当前块的运动向量包括根据模板匹配(TM)来推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款72:根据条款59-71中任一项所述的方法,还包括:在对当前块进行解码之前,对当前块进行编码。
条款73:一种用于对视频数据进行解码的设备,该设备包括:存储器,其被配置为存储视频数据;以及一个或多个处理器,其在电路中实现并且被配置为:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款74:根据条款73所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为:从当前块的相邻块检索未经细化的运动向量;以及对未经细化的运动向量进行细化,以形成用于当前块的运动向量。
条款75:根据条款73和74中任一项所述的设备,其中,为了确定确定性边界框,一个或多个处理器被配置为:对用于当前块的相邻块的运动信息进行解码,该运动信息包括定义相邻块运动向量的数据;以及使用相邻块运动向量来确定确定性边界框。
条款76:根据条款75所述的设备,其中,一个或多个处理器还被配置为:对相邻块运动向量进行细化以形成经细化的相邻块运动向量;以及使用经细化的相邻块运动向量来预测相邻块。
条款77:根据条款75和76中任一项所述的设备,其中,一个或多个处理器被配置为:将确定性边界框确定为具有包括在由相邻块运动向量指示的样本中的N个样本内的样本的区域。
条款78:根据条款77所述的设备,其中,N是根据内部运动向量存储精度的倍数确定的预定义的值。
条款79:根据条款77和78中任一项所述的设备,其中,对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的每一者,N都是相同的。
条款80:根据条款73-79中任一项所述的设备,其中,一个或多个处理器被配置为:根据用于DMVD的内插滤波器长度来确定确定性边界框。
条款81:根据条款73-80中任一项所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为:在确定性边界框内开始执行运动搜索。
条款82:根据条款73-81项中任一项所述的设备,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
条款83:根据条款73-82中任一项所述的设备,其中,为了推导运动向量,一个或多个处理器被配置为:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,为了形成预测块,一个或多个处理器被配置为:使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段,以生成用于当前块的预测块。
条款84:根据条款83所述的设备,其中,一个或多个处理器被配置为:使用先前译码块的一个或多个未经细化的运动向量来生成用于当前块的运动向量候选列表。
条款85:根据条款73-84中任一项所述的设备,其中,一个或多个处理器被配置为:根据模板匹配(TM)来推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款86:根据条款73-85中任一项所述的设备,其中,所述一个或多个处理器还被配置为:在对当前块进行解码之前,对当前块进行编码。
条款87:根据条款73-86中任一项所述的设备,还包括:被配置为显示经解码的视频数据的显示器。
条款88:根据条款73-87中任一项所述的设备,其中,该设备包括以下各项中的一项或多项:相机、计算机、移动设备、广播接收机设备、或机顶盒。
条款89:一种其上存储有指令的计算机可读存储介质,这些指令当被执行时使得处理器进行以下操作:确定确定性边界框,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量;使用运动向量来形成预测块;以及使用预测块对当前块进行解码。
条款90:根据条款89所述的计算机可读存储介质,其中,使得处理器推导出运动向量的指令包括使得处理器进行以下操作的指令:使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,并且其中,使得处理器形成预测块的指令包括使得处理器进行以下操作的指令:使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段以生成用于当前块的预测块。
条款91:根据条款89和90中任一项所述的计算机可读存储介质,其中,使得处理器根据DMVD来推导用于当前块的运动向量的指令包括使得处理器进行以下操作的指令:根据模板匹配(TM)来推导用于当前块的运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
条款92:一种用于对视频数据进行解码的设备,该设备包括:用于确定确定性边界框的单元,从该确定性边界框检索视频数据的参考图片的参考样本,以针对视频数据的当前块执行解码器侧运动向量推导(DMVD);用于根据DMVD,使用确定性边界框内的参考样本来推导用于当前块的运动向量的单元;用于使用运动向量来形成预测块的单元;以及用于使用预测块对当前块进行解码的单元。
条款93:根据条款92所述的设备,其中,用于推导运动向量的单元包括:用于使用当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段的单元;以及用于使用先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段的单元,并且其中,用于形成预测块的单元包括用于使用先前译码块的一个或多个经细化的运动向量针对当前块执行运动补偿阶段以生成用于当前块的预测块的单元。
条款94:根据条款92和93中任一项所述的设备,其中,用于根据DMVD推导用于当前块的运动向量的单元包括用于根据模板匹配(TM)来推导用于当前块的运动向量的单元,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
要认识到的是,取决于示例,本文描述的任何技术的某些动作或事件可以以不同的顺序执行,可以被添加、合并或完全省略(例如,并非所有描述的动作或事件对于实施所述技术是必要的)。此外,在某些示例中,动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。
在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现,则所述功能可以作为一个或多个指令或代码被存储在计算机可读介质上或者通过其进行发送,并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质(其对应于诸如数据存储介质之类的有形介质)或者通信介质,所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取回用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。
举例来说而非进行限制,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构的形式存储期望的程序代码以及能够由计算机访问的任何其它介质。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(例如,红外线、无线电和微波)从网站、服务器或其它远程源发送指令,则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(例如,红外线、无线电和微波)被包括在介质的定义中。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,而是替代地针对非暂时性的有形存储介质。如本文所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘利用激光来光学地复制数据。上述的组合应当还被包括在计算机可读介质的范围内。
指令可以由一个或多个处理器(诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或分立逻辑电路)执行。因此,如本文所使用的术语“处理器”和“处理电路”可以指代前述结构中的任何一者或者适于实现本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者被并入经组合的编解码器中。此外,所述技术可以完全在一个或多个电路或逻辑元件中实现。
本公开内容的技术可以在多种多样的设备或装置(包括无线手机、集成电路(IC)或一组IC(例如,芯片组))中实现。在本公开内容中描述了各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能性方面,但是不一定要求通过不同的硬件单元来实现。而是,如上文所述,各种单元可以被组合在编解码器硬件单元中,或者由可互操作的硬件单元的集合(包括如上文所描述的一个或多个处理器)结合适当的软件和/或固件来提供。
已经描述了各个示例。这些和其它示例在所附的权利要求的范围内。
Claims (36)
1.一种对视频数据进行解码的方法,所述方法包括:
确定确定性边界框,从所述确定性边界框检索视频数据的参考图片的参考样本,以针对所述视频数据的当前块执行解码器侧运动向量推导(DMVD);
根据DMVD使用在所述确定性边界框内的所述参考样本来推导用于所述当前块的运动向量;
使用所述运动向量来形成预测块;以及
使用所述预测块对所述当前块进行解码。
2.根据权利要求1所述的方法,其中,推导所述运动向量包括:
从所述当前块的相邻块检索未经细化的运动向量;以及
对所述未经细化的运动向量进行细化以形成用于所述当前块的所述运动向量。
3.根据权利要求1所述的方法,其中,确定所述确定性边界框包括:
对用于所述当前块的相邻块的运动信息进行解码,所述运动信息包括定义相邻块运动向量的数据;以及
使用所述相邻块运动向量来确定所述确定性边界框。
4.根据权利要求3所述的方法,还包括:
对所述相邻块运动向量进行细化以形成经细化的相邻块运动向量;以及
使用所述经细化的相邻块运动向量来预测所述相邻块。
5.根据权利要求3所述的方法,其中,确定所述确定性边界框包括:将所述确定性边界框确定为具有包括在由所述相邻块运动向量指示的样本中的N个样本内的样本的区域。
6.根据权利要求5所述的方法,其中,N是根据内部运动向量存储精度的倍数确定的预定义值。
7.根据权利要求5所述的方法,其中,N对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的每一者都是相同的。
8.根据权利要求1所述的方法,其中,确定所述确定性边界框包括根据用于DMVD的内插滤波器长度来确定所述确定性边界框。
9.根据权利要求1所述的方法,其中,推导所述运动向量包括在所述确定性边界框内开始执行运动搜索。
10.根据权利要求1所述的方法,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
11.根据权利要求1所述的方法,
其中,推导所述运动向量包括:
使用所述当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及
使用所述先前译码块的所述一个或多个未经细化的运动向量来执行参考样本提取阶段,以及
其中,形成所述预测块包括使用所述先前译码块的一个或多个经细化的运动向量针对所述当前块执行运动补偿阶段以生成用于当前块的预测块。
12.根据权利要求11所述的方法,还包括:使用所述先前译码块的所述一个或多个未经细化的运动向量,来生成用于所述当前块的运动向量候选列表。
13.根据权利要求1所述的方法,其中,根据DMVD推导用于所述当前块的所述运动向量包括根据模板匹配(TM)来推导用于所述当前块的所述运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
14.根据权利要求1所述的方法,还包括:在对所述当前块进行解码之前,对所述当前块进行编码。
15.一种用于对视频数据进行解码的设备,所述设备包括:
存储器,其被配置为存储视频数据;以及
一个或多个处理器,其在电路中实现并且被配置为:
确定确定性边界框,从所述确定性边界框检索视频数据的参考图片的参考样本,以针对所述视频数据的当前块执行解码器侧运动向量推导(DMVD);
根据DMVD使用在所述确定性边界框内的所述参考样本来推导用于所述当前块的运动向量;
使用所述运动向量来形成预测块;以及
使用所述预测块对所述当前块进行解码。
16.根据权利要求15所述的设备,其中,为了推导所述运动向量,所述一个或多个处理器被配置为:
从所述当前块的相邻块检索未经细化的运动向量;以及
对所述未经细化的运动向量进行细化以形成用于所述当前块的所述运动向量。
17.根据权利要求15所述的设备,其中,为了确定所述确定性边界框,所述一个或多个处理器被配置为:
对用于所述当前块的相邻块的运动信息进行解码,所述运动信息包括定义相邻块运动向量的数据;以及
使用所述相邻块运动向量来确定所述确定性边界框。
18.根据权利要求17所述的设备,其中,所述一个或多个处理器还被配置为:
对所述相邻块运动向量进行细化以形成经细化的相邻块运动向量;以及
使用所述经细化的相邻块运动向量来预测所述相邻块。
19.根据权利要求17所述的设备,其中,所述一个或多个处理器被配置为:将所述确定性边界框确定为具有包括在由所述相邻块运动向量指示的样本中的N个样本内的样本的区域。
20.根据权利要求19所述的设备,其中,N是根据内部运动向量存储精度的倍数确定的预定义值。
21.根据权利要求19所述的设备,其中,N对于模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的每一者都是相同的。
22.根据权利要求15所述的设备,其中,所述一个或多个处理器被配置为:根据用于DMVD的内插滤波器长度来确定所述确定性边界框。
23.根据权利要求15所述的设备,其中,为了推导所述运动向量,所述一个或多个处理器被配置为:在所述确定性边界框内开始执行运动搜索。
24.根据权利要求15所述的设备,其中,DMVD包括模板匹配(TM)、双边合并(BM)、解码器侧运动向量细化(DMVR)、或多通道DMVR中的一者。
25.根据权利要求15所述的设备,
其中,为了推导所述运动向量,所述一个或多个处理器被配置为:
使用所述当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及
使用所述先前译码块的所述一个或多个未经细化的运动向量来执行参考样本提取阶段,以及
其中,为了形成所述预测块,所述一个或多个处理器被配置为:使用所述先前译码块的一个或多个经细化的运动向量针对所述当前块执行运动补偿阶段,以生成用于所述当前块的所述预测块。
26.根据权利要求25所述的设备,其中,所述一个或多个处理器被配置为:使用所述先前译码块的所述一个或多个未经细化的运动向量,来生成用于所述当前块的运动向量候选列表。
27.根据权利要求15所述的设备,其中,所述一个或多个处理器被配置为:根据模板匹配(TM)来推导用于所述当前块的所述运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
28.根据权利要求15所述的设备,其中,所述一个或多个处理器还被配置为:在对所述当前块进行解码之前,对所述当前块进行编码。
29.根据权利要求15所述的设备,还包括:被配置为显示经解码的视频数据的显示器。
30.根据权利要求15所述的设备,其中,所述设备包括相机、计算机、移动设备、广播接收机设备、或机顶盒中的一者或多者。
31.一种其上存储有指令的计算机可读存储介质,所述指令当被执行时使得处理器进行以下操作:
确定确定性边界框,从所述确定性边界框检索视频数据的参考图片的参考样本,以针对所述视频数据的当前块执行解码器侧运动向量推导(DMVD);
根据DMVD使用在所述确定性边界框内的所述参考样本来推导用于所述当前块的运动向量;
使用所述运动向量来形成预测块;以及
使用所述预测块对所述当前块进行解码。
32.根据权利要求31所述的计算机可读存储介质,
其中,使得所述处理器推导所述运动向量的所述指令包括使得所述处理器进行以下操作的指令:
使用所述当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段;以及
使用所述先前译码块的一个或多个未经细化的运动向量来执行参考样本提取阶段,以及
其中,使得所述处理器形成所述预测块的所述指令包括使得所述处理器进行以下操作的指令:使用所述先前译码块的一个或多个经细化的运动向量针对所述当前块执行运动补偿阶段,以生成用于所述当前块的所述预测块。
33.根据权利要求31所述的计算机可读存储介质,其中,使得所述处理器根据DMVD来推导用于所述当前块的所述运动向量的所述指令包括使得所述处理器进行以下操作的指令:根据模板匹配(TM)来推导用于所述当前块的所述运动向量,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
34.一种用于对视频数据进行解码的设备,所述设备包括:
用于确定确定性边界框的单元,从所述确定性边界框检索视频数据的参考图片的参考样本,以针对所述视频数据的当前块执行解码器侧运动向量推导(DMVD);
用于根据DMVD使用在所述确定性边界框内的所述参考样本来推导用于所述当前块的运动向量的单元;
用于使用所述运动向量来形成预测块的单元;以及
用于使用所述预测块对所述当前块进行解码的单元。
35.根据权利要求34所述的设备,
其中,所述用于推导所述运动向量的单元包括:
用于使用所述当前块的先前译码块的一个或多个未经细化的运动向量来执行运动场重构阶段的单元;以及
用于使用所述先前译码块的所述一个或多个未经细化的运动向量来执行参考样本提取阶段的单元,以及
其中,所述用于形成所述预测块的单元包括用于使用所述先前译码块的一个或多个经细化的运动向量针对所述当前块执行运动补偿阶段以生成用于所述当前块的预测块的单元。
36.根据权利要求34所述的设备,其中,所述用于根据DMVD来推导用于所述当前块的所述运动向量的单元包括用于根据模板匹配(TM)来推导用于所述当前块的所述运动向量的单元,所述TM包括仅使用相邻重构样本来形成用于TM的当前块模板。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/217,164 | 2021-06-30 | ||
US17/809,167 US20230007238A1 (en) | 2021-06-30 | 2022-06-27 | Using unrefined motion vectors for performing decoder-side motion vector derivation |
US17/809,167 | 2022-06-27 | ||
PCT/US2022/073228 WO2023279000A1 (en) | 2021-06-30 | 2022-06-28 | Using unrefined motion vectors for performing decoder-side motion vector derivation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117546467A true CN117546467A (zh) | 2024-02-09 |
Family
ID=89794360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280044142.0A Pending CN117546467A (zh) | 2021-06-30 | 2022-06-28 | 使用未经细化的运动向量来执行解码器侧运动向量推导 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117546467A (zh) |
-
2022
- 2022-06-28 CN CN202280044142.0A patent/CN117546467A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110771164B (zh) | 视频译码中的帧间预测与帧内预测的组合 | |
CN113196749B (zh) | 用于译码视频数据的方法和设备 | |
TW202025752A (zh) | 用於仿射模式之以歷史為基礎之運動向量預測 | |
WO2019199953A1 (en) | Decoder-side motion vector derivation for video coding | |
US20230007238A1 (en) | Using unrefined motion vectors for performing decoder-side motion vector derivation | |
CN114009039A (zh) | 视频译码中的时间运动矢量预测候选的推导 | |
CN116472712A (zh) | 用于解码器侧运动矢量(mv)推导技术的块自适应搜索范围和成本因子 | |
WO2023055583A1 (en) | Decoder side motion derivation using spatial correlation | |
TW202245477A (zh) | 幀間預測模式中的模板匹配細化 | |
US11528504B2 (en) | Motion vector prediction with motion information collecting buffer | |
US20230094825A1 (en) | Motion vector difference sign prediction for video coding | |
WO2023137414A2 (en) | Coding video data using out-of-boundary motion vectors | |
US20220248047A1 (en) | Model-based motion vector difference derivation and template matching prediction for video coding | |
CN117546465A (zh) | 视频译码中的合并候选重新排序 | |
CN117529921A (zh) | 视频译码中的混合帧间双预测 | |
CN116636213A (zh) | 视频译码中的模板匹配 | |
CN117546467A (zh) | 使用未经细化的运动向量来执行解码器侧运动向量推导 | |
JP2024501137A (ja) | ビデオコーディングにおけるテンプレートマッチング | |
KR20230135587A (ko) | 비디오 코딩을 위한 모델-기반 모션 벡터 차이 도출및 템플릿 매칭 예측 | |
CN116803081A (zh) | 用于视频编解码的基于模型的运动矢量差导出和模板匹配预测 | |
JP2023553839A (ja) | ビデオコーディングにおける双方向オプティカルフロー | |
JP2024514113A (ja) | ビデオコーディングのためのテンプレートマッチングベースのアフィン予測 | |
CN118056400A (zh) | 用于视频译码的运动矢量差符号预测 | |
CN117203966A (zh) | 用于视频译码的基于模板匹配的仿射预测 | |
JP2023554236A (ja) | マルチパスデコーダ側動きベクトル改良 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |