CN113196766A

CN113196766A - 使用多分辨率参考图片管理的视频编解码

Info

Publication number: CN113196766A
Application number: CN201980080833.4A
Authority: CN
Inventors: 王祥林; 陈漪纹; 郑云飞; 闻兴; 陈宇聪; 黄跃
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2019-12-09
Publication date: 2021-07-30
Also published as: EP3878177A4; JP7193636B2; JP7258209B2; KR102427074B1; MX2021006688A; US20220124317A1; JP2022510032A; US20200186795A1; JP2023027224A; CN113810689A; KR20220109489A; WO2020115725A1; KR20210080565A; EP3878177A1

Abstract

提供了视频编解码方法和装置。对包括两个或更多个图片的集合进行编解码。该集合至少包括以第一空间分辨率编解码的第一图片和以不同于第一空间分辨率的第二空间分辨率编解码的第二图片。基于相应的空间分辨率，将包括两个或更多个图片的集合存储在解码图片缓冲区中。存储在解码图片缓冲区中的包括两个或更多个图片的集合，用作用于对包括两个或更多个图片的集合之后的一个或多个连续图片进行编解码的参考图片集合。将包括两个或更多个图片的集合并入到参考图片列表中，该参考图片列表至少包含具有两个不同空间分辨率的图片。

Description

使用多分辨率参考图片管理的视频编解码

相关申请的交叉引用

本申请要求享受于2018年12月7日提交的美国临时专利申请序列号No.62/766,997的优先权。通过引用的方式将上述申请的全部内容整体并入本文。

技术领域

概括地说，本公开内容涉及视频编解码和压缩。具体地说，本公开内容涉及用于使用参考图片管理执行视频编解码的系统和方法。

背景技术

本部分提供与本公开内容有关的背景信息。本部分中包含的信息不必解释为现有技术。

可以使用各种视频编解码技术中的任何一种来压缩视频数据。可以根据一种或多种视频编解码标准来执行视频编解码。一些说明性视频编解码标准包括通用视频编解码(VVC)、联合探索测试模型(JEM)、高效视频编解码(H.265/HEVC)、高级视频编解码(H.264/AVC)和运动图片专家组(MPEG)编解码。视频编解码通常利用充分利用视频图像或序列中固有的冗余的预测方法(例如，帧间预测、帧内预测等)。视频编解码技术的一个目标是将视频数据压缩为使用较低比特率的形式，同时避免或最小化视频质量的下降。

根据许多视频编解码器规范，出于多种目的，需要识别和管理保存在解码图片缓冲区(DPB)中的图片。例如，这些图片可以用作执行帧间预测的参考图片。另外地或替代地，这些图片可以用作用于显示的输出图片。同时，与这些图片相关联的信息也可以用于诸如时间运动矢量(MV)推导中的运动矢量的缩放和/或加权预测中的采样值的缩放等等之类的操作中。

发明内容

本部分提供了本公开内容的总体概述，并不是对其全部范围或所有特征的全面披露。

根据本公开内容的第一方面，在具有一个或多个处理器和存储器的计算设备处执行视频编解码方法，该存储器存储要由所述一个或多个处理器执行的多个程序。该方法包括：对包括两个或更多个图片的集合进行编解码，该集合至少包括以第一空间分辨率编解码的第一图片和以不同于第一空间分辨率的第二空间分辨率编解码的第二图片。将包括两个或更多个图片的集合存储在操作性耦合到解码器的解码图片缓冲区中。基于其相应的图片分辨率，将包括两个或更多个图片的集合存储在解码图片缓冲区中。存储在解码图片缓冲区中的包括两个或更多个图片的集合，用作用于对包括两个或更多个图片的集合之后的一个或多个连续图片进行编解码的参考图片集合。将包括两个或更多个图片的集合并入到参考图片列表中，该参考图片列表至少包含具有两个不同空间分辨率的图片。

根据本公开内容的第二方面，提供了一种视频编解码装置。该装置包括编解码器，其被配置为对包括两个或更多个图片的集合进行编解码。该集合至少包括以第一空间分辨率编解码的第一图片和以不同于第一空间分辨率的第二空间分辨率编解码的第二图片。将包括两个或更多个图片的集合存储在操作性耦合到解码器的解码图片缓冲区中。基于其相应的图片分辨率，将包括两个或更多个图片的集合存储在解码图片缓冲区中。解码图片缓冲区包括被配置为存储包括两个或更多个图片的集合的计算机可读存储设备。基于第一和第二空间分辨率，将包括两个或更多个图片的集合存储在解码图片缓冲区中。将包括两个或更多个图片的集合存储在操作性耦合到解码器的解码图片缓冲区中。基于其相应的图片分辨率，将包括两个或更多个图片的集合存储在解码图片缓冲区中。存储在解码图片缓冲区中的包括两个或更多个图片的集合，用作用于对包括两个或更多个图片的集合之后的一个或多个连续图片进行编解码的参考图片集合。将包括两个或更多个图片的集合并入到参考图片列表中，该参考图片列表至少包含具有两个不同空间分辨率的图片。

附图说明

在下文中，将结合附图描述本公开内容的说明性的非限制性实施例的集合。相关领域的普通技术人员可以基于本文提出的示例来实现结构、方法或功能的变型，并且这些变型都包含在本公开内容的范围内。在不存在冲突的情况下，不同实施例的教导可以但不必彼此组合。

图1是阐述可以与许多视频编解码标准结合使用的说明性编码器的框图。

图2是阐述可以与许多视频编解码标准结合使用的说明性解码器的框图。

图3是可以与许多视频编解码标准结合使用的参数集的例子。

图4是用于推导时间运动矢量预测器(TVMP)的运动矢量缩放的图示。

图5示出了可缩放视频编解码结构的例子。

图6示出了以两个不同的空间分辨率进行编解码的一组图片。

具体实施方式

在本公开内容中使用的术语旨在说明特定的示例，而不是对本公开内容进行限制。如在本公开内容以及所附权利要求书中使用的单数形式“一个”、“某个”和“该”也指复数形式，除非上下文中明确地包含其它含义。应当理解的是，如本文所使用的术语“和/或”是指一个或多个相关联列出的项的任何或所有可能的组合。

应当理解的是，虽然本文可以使用术语“第一”、“第二”、“第三”等来描述各种信息，但是该信息不应受到这些术语的限制。这些术语仅用于区分一种类型的信息和另一种类型的信息。例如，在不脱离本公开内容的保护范围的情况下，第一信息可以称为第二信息；并且类似地，第二信息也可以称为第一信息。如本文所使用的，根据上下文，可以将术语“如果”理解为表示“当”、“在…时”或“响应于”。

贯穿本说明书对“一个实施例”、“某个实施例”、“另一个实施例”等等的单数或复数引用，意味着结合一个实施例描述的一个或多个特定特征、结构或特性包括在本公开内容的至少一个实施例中。因此，在贯穿本说明书的各个地方出现的单数或复数形式的短语“在一个实施例中”或“在某个实施例中”、“在另一个实施例中”等等不一定都指代同一个实施例。此外，可以以任何合适的方式，对一个或多个实施例中的特定特征、结构或特性进行组合。

从概念上讲，许多视频编解码标准是相似的，包括先前在背景技术部分中提到的那些标准。例如，几乎所有的视频编解码标准都使用基于块的处理，并且共享相似的视频编解码框图来实现视频压缩。

图1示出了可以与许多视频编解码标准结合使用的说明性编码器100的框图。在编码器100中，将视频帧划分为多个块来进行处理。对于每个给定的视频块，基于帧间预测方法或帧内预测方法来形成预测。在帧间预测中，基于来自先前重构的帧的像素，通过运动估计和运动补偿来形成一个或多个预测器。在帧内预测中，基于当前帧中的重构像素来形成预测器。通过模式判定，可以选择最佳预测器来预测当前块。

将表示当前块与其预测器之间的差的预测残差发送到变换102模块。然后，将变换系数从变换102模块发送到量化104模块以进行熵降低。然后，将量化的系数馈送到熵编解码106模块以生成压缩的视频比特流。如图1中所示，将来自帧间预测模块和/或帧内预测112模块的与预测有关的信息110(例如，块划分信息、运动矢量、参考图片索引和帧内预测模式等等)也馈送通过熵编解码106模块，并保存到压缩的视频比特流114中。

在编码器100中，还需要与解码器相关的模块，以便为了预测起见而重构像素。首先，通过逆量化116块和逆变换118模块来重构预测残差。将该重构的预测残差与块预测器120进行组合，以生成当前块的未滤波的重构像素。

为了提高编解码效率和视觉质量，通常使用环路滤波器。例如，AVC、HEVC以及当前版本的VVC中都提供了解块滤波器。在HEVC中，定义了称为SAO(样点自适应偏移)的附加环路滤波器，以进一步提高编解码效率。在VVC标准的现在当前版本中，正在积极研究另一种称为ALF(自适应环路滤波器)的环路滤波器，它很可能会被纳入到最终标准中。

这些环路滤波器操作是可选的。执行这些操作有助于提高编解码效率和视觉质量。也可以将它们关闭，由编码器100做出该决定，以节省计算复杂性。

应当注意，帧内预测通常是基于未滤波的重构像素，而帧间预测是基于滤波后的重构像素(如果编码器100开启了这些滤波器选项的话)。

图2是可以与许多视频编解码标准结合使用的示例性解码器200的框图。该解码器200类似于位于图1的编码器100中的与重构有关的部分。在解码器200(图2)中，首先通过熵解码202模块对进入的视频比特流201进行解码，以导出量化的系数水平和与预测有关的信息。然后，通过逆量化204块和逆变换206模块来处理经量化的系数水平，以获得重构的预测残差。在帧内/帧间模式选择器212块中实现的块预测器机制，被配置为基于解码的预测信息来执行帧内预测208过程或运动补偿210处理。通过使用求和器214，将来自逆变换206模块的重构的预测残差与块预测器机制生成的预测输出相加来获得一组未滤波的重构像素。在打开环路滤波器的情形下，对这些重构的像素执行滤波操作，以导出最终的重构视频进行输出。

由于某些报头信息的丢失而造成的破坏性影响，在H.264/AVC视频编解码标准中引入了参数集。该报头信息可以以序列报头和/或图片报头的形式存在。例如，在许多视频编解码应用中，可以将图片划分为多个片段(例如，切片)，每个片段在其自己的传输单元(例如，RTP分组)中传输。通常，将上述的报头信息与图片的第一片段一起传输。在这种情况下，由于该报头数据的缺少，丢失图片的第一分组可能会导致完全不正确的图片。

参数集可以是视频比特流的一部分(图1的114或图2的201)，或者可以由解码器通过其它方式(例如，使用可靠信道的带外传输、或硬解码在编码器100(图1)和解码器200(图2)中)来接收。参考图3，参数集300可以各自包含具有不同范围的不同类型的数据。例如，将序列参数集(SPS)302定义为携带视频序列等级信息。还将图片参数集(PPS)304定义为携带图片等级信息。参数集包含可以直接或间接地从切片头308引用的标识。

在HEVC中，引入了称为视频参数集(VPS)306的另一种类型的参数集，以传达适用于多层以及子层的信息，以支持具有能力交换和会话协商的情况。给定视频序列的每一层(无论它们是否具有相同或不同的SPS 302)都指向相同的VPS 306。

VPS 306传达的信息包括：1)由多层或操作点共享的通用语义元素，以避免不必要的重复；2)会话协商所需要的操作点的基本信息，例如简档和等级；以及3)其它不属于单个SPS 302的特定于操作点的信息，例如，用于层或子层的假设参考解码器(HRD)参数。H.264/AVC没有可比较的参数集，因此，通常必须在每个SPS 302中重复上面列出的信息。

如图3中所示，切片头308可以通过标识符pps_id来引用PPS 304。同样，PPS 304可以通过标识符sps_id来引用SPS 302，并且SPS可以通过标识符vps_id来引用VPS。

对于帧间预测，定义运动模型以描述如何根据给定的参考图片来形成预测块。

在H.265/HEVC、H.264/AVC和先前的视频编解码标准中，仅定义了平移运动模型并将其用于基于块的运动补偿(MC)。基于该模型，可以将参考像素位置(x_r,y_r)推导为：

x_r＝x+a

y_r＝y+b

其中，(x，y)是当前像素的位置。参数a和b是运动矢量(a，b)的水平和垂直分量。这样的运动模型很简单，但其不能用于建模诸如旋转、缩放或剪切贴图(shear mapping)等等之类的非平移运动。

为了实现更高效的帧间预测，在最新的VVC标准中使用了更复杂的仿射运动模型。当前支持4参数和6参数仿射模型两者。一般的6参数仿射模型可以表示为：

x_r＝a*x+b*y+c

y_r＝d*x+e*y+f

其中，(a，b，c，d，e，f)是要确定并从编码器传输到解码器的参数。

作为简化，VVC中还支持以下所示的4参数仿射模型，以便对仅限于旋转、缩放和平移的组合的运动进行分类。

x_r＝a*x+b*y+c

y_r＝-b*x+a*y+f

虽然4参数仿射模型的通用性不如6参数仿射模型，但是它具有较少的要编解码和传输的参数。在运动仅限于旋转、缩放和平移的情况下，从速率失真(RD)角度来看，通常优选4参数仿射模型。

在HEVC中，可以使用其参考图片之一中的运动矢量来预测当前块的运动矢量。这样的运动矢量预测器称为时间运动矢量预测器(TMVP)。在HEVC中定义了用于导出给定当前块的TMVP的一系列过程。

具体而言，在该TMVP的推导中，从同位图片的MV中导出缩放的运动矢量，该同位图片是参考图片列表中的先前编解码的图片。在TMVP的推导中，首先将切片头中的显式标志(collocated_from_l0_flag)发送到解码器，以指示是否从称为列表0的第一参考图片列表中选择了同位图片，而不是从称为列表1的第二参考图片列表中选择了同位图片。在本公开内容的以下描述中，为了简单起见，列表0也称为L0；同样，列表1也称为L1。进一步发送同位参考索引(collocated_ref_idx)，以指示选择该列表中的哪个图片作为导出TMVP的同位图片。根据同位图片的同位块中的不同列表的MV的预定义顺序，独立地导出时间运动候选的L0 MV和L1 MV，如表1中所示。

表1示出了用于HEVC中的从同位块中导出时间MV以用于TMVP的示例性算法。

表1

图4是用于推导时间运动矢量预测器(TVMP)的运动矢量缩放过程的图示。如虚线401所示，获得用于推导TMVP的缩放运动矢量，其是通过使用一组图片顺序计数(POC)距离tb 403和td 404，对同位的预测单元(PU)402的选定运动矢量来缩放的，其中将tb 403定义为当前图片的参考图片和当前图片之间的POC差(也称为POC距离)，并且将td 404定义为同位的图片的参考图片与同位的图片之间的POC差。将时间合并候选的参考图片索引设置为等于零。在HEVC规范中，描述了缩放过程的实际实现。对于B切片，获得两个运动矢量。第一运动矢量对应参考图片列表0，第二运动矢量对应参考图片列表1。对第一运动矢量和第二运动矢量进行组合以构成双向预测TMVP。

如在先前部分中所解释的，将先前解码/重构的图片保存在解码图片缓冲区(DPB)中。这些图片是基于某些规则进行管理的，以便它们在需要时可用，并在不再需要时从DPB中永久删除。DPB中的图片用于多种目的，例如用作帧间预测的参考图片和/或用于输出以进行显示。它们还为推导时间运动矢量预测器(TMVP)时的运动矢量缩放提供信息，并为加权预测中的采样值缩放提供信息。

在AVC和HEVC两者中，通过解码的参考图片标记过程来管理保存在DPB中的图片，以判断图片是否仍然用作用于按解码顺序对连续图片进行解码的参考图片，和/或判断该图片是否需要进行输出(或显示)。如果在任何一种情况下都不需要该图片，则将其从DPB中移除，并且相应的存储空间可以用于其它图片。在这两种标准中，将参考图片分为两种类型：短期参考图片和长期参考图片。

通过AVC与HEVC中的不同机制来实现参考图片标记过程。在H.264/AVC中，存在两种用于解码参考图片标记的机制：隐式滑动窗处理和显式内存管理控制操作(MMCO)处理。当参考帧的数量等于SPS中定义的给定最大数量(max_num_ref_frames)时，滑动窗处理将短期参考图片标记为“未用于参考”。以先进先出的方式存储短期参考图片，以便将最新解码的短期图片保存在DPB中。

显式MMCO处理可以包括多个MMCO命令。MMCO命令可以将一个或多个短期或长期参考图片标记为“未用于参考”，将所有图片标记为“未用于参考”，或者将当前参考图片或现有的短期参考图片标记为长期，并为该长期参考图片分配长期参考图片索引。

在H.265/HEVC中，引入了一种完全不同的参考图片管理方法(即，通过参考图片集(RPS))。对于每个特定的切片，RPS定义了当前图片或任何后续图片使用的完整参考图片集合。该参考图片集合全部保留在DPB中。与H.264/AVC中的机制不同，在RPS概念的情况下，不需要来自于解码顺序的早期图片中的信息，来在DPB中保持参考图片的正确状态。

可能期望改变比特流的视频分辨率，以便适应通信信道的可用带宽中的临时变化。这可以通过联播(simulcast)或可缩放视频编解码来实现。

在联播的情况下，可以分别生成针对相同视频但具有不同空间分辨率的比特流，并以广播方式进行同时发送。接收设备可以基于接收设备的带宽，在不同分辨率的比特流之间适应性地选择。在可以用作随机访问点的关键图片(例如，IDR图片)的位置处，通常发生这种分辨率切换。

在可缩放视频编解码中，以分层的方式，联合生成针对同一视频但具有不同空间分辨率的比特流，其中每一层对应于不同的视频分辨率。通过这种联合编解码，可以进一步利用这些不同分辨率的视频之间的某种相关性来降低比特率。

图5示出了可缩放视频编解码结构的例子。在该例子中，存在两层，这两层可以分别称为基础层501和增强层502。在该例子中，基础层501具有比增强层502更低的空间分辨率和更低的时间分辨率。与联播相比，可以支持层间预测(通过垂直箭头来指示)以提高增强层502的编解码效率。

根据H.264/AVC的可缩放视频编解码简档，若干项中的任何一项都可以用于来自同位基础层501块的层间预测。这些项包括使用帧内预测区域中的重构像素、运动矢量和/或块纹理预测残差。另外，当基础层501和增强层502具有不同的空间分辨率时，来自同位的基础层501块的这些项需要进行适当地上采样和/或缩放。在这种情况下，可能需要额外的缓冲区来存储经上采样/缩放的中间数据。除了层间预测所需要的任何额外缓冲区之外，每个层都有自己的DPB。

如在联播的情况下，在可以用作随机访问点的关键图片(例如，IDR图片)的位置处，可以发生可缩放视频编解码中从较低空间分辨率到较高空间分辨率的比特流切换。由于总是需要基础层501，因此可以在任何图片位置处发生从增强层502到基础层501的切换。

AOMedia Video 1(AV1)是由开放媒体联盟(AOMedia)开发的一种开放的、免版税的视频编解码格式，AOMedia是在2015年成立的来自半导体行业、视频点播提供商和Web浏览器开发商的公司联盟。

在AV1中，支持称为“帧超分辨率化”的功能。根据该编解码模式，可以以较低的空间分辨率对图片进行编解码，然后在更新参考缓冲区集合之前以标准方式将其超分辨循环到全分辨率。已知这样的方法以非常低的比特率提供感知上的优势。为了使操作在计算上易于处理，将超分辨率化过程分解为线性放大，然后以更高的空间分辨率应用基于维纳(Wiener)滤波器的环路恢复工具。此外，为了在行缓冲器中没有开销的情况下实现具有成本效益的硬件实现，将提升/降低限制为仅水平地操作。

在诸如H.264/AVC和H.265/HEVC之类的现有视频编解码标准中，以恒定的空间分辨率对视频进行编解码。在需要降低该空间分辨率以适应较低比特率场景和/或较低的可用带宽的情况下，需要能够支持随机访问的图片(例如，IDR图片)以及新的参数集信息(例如，SPS、PPS等)与IDR图片一起标示。该机制的问题在于：由于IDR图片是帧内编码的，因此发送该图片通常代价非常大。如果将较低的比特率强加给该IDR图片，则其视觉质量可能会受到很大影响。

利用AVC和/或HEVC的可缩放的扩展简档，可以通过仅保持基础层501图片比特流以适应较低比特率场景来降低空间分辨率。但是，可缩放视频编解码涉及多层。它的编解码效率通常不如对单个层进行编解码那么高效。解码器的复杂度更高，这是因为必须支持多层解码(并且在某些情况下，还需要多层运动补偿)。实际上，在解码器侧，非常不期望这种额外的复杂性。

在AV1中，通过帧超分辨率化的编解码模式，可以更好地支持这种情况。在这种情况下，可以在任何给定的图片位置(其包括帧间预测的图片)处，发生帧分辨率降低。但是，在将重构的图片保存到DPB中以备将来使用之前，它确实需要进行帧放大处理，然后再进行超分辨率化处理，以确保DPB中的图片均具有相同的空间分辨率。

根据本公开内容，可以在任何图片位置处，以不同的空间分辨率对图片进行编解码。空间分辨率的变化可以发生在任何图片位置，而不必发生在支持随机访问的图片(例如，IDR图片)上。另外，不需要放大过程和超分辨率化过程将重构的图片缩放回原始的视频分辨率。取而代之的是，无论以何种图像分辨率对图片进行编解码，都将重构的图像直接保存到DPB中。

图片分辨率降级并不限于水平方向。它可以同时发生在水平和垂直方向上。

图6示出了以两个不同的空间分辨率来编解码的一组图片。例如，基于本公开内容的教导，DPB缓冲区可以包含具有至少两个不同的空间分辨率的图片。如图6中所示，假定图片是根据它们的时间顺序K、K+1、…K+6、…来编解码的，可以将图片在空间上降级以在需要时节省比特率。在该例子中，表示为K的第一图片601和表示为K+1的第二图片602都处于第一空间分辨率。但是，将表示为K+2的第三图片603降级为低于第一分辨率的第二空间分辨率，以适应较低的比特率。例如，这可能是由于通信信道上可用带宽的减少。第四图片604(K+3)、第五图片605(K+4)和第六图片606(K+5)均以第二(较低)空间分辨率进行编解码。在第七图片607(K+6)处，通信信道带宽充分地提高，并且可以以应用于第一图片601和第二图片602的第一(更高)分辨率对第七图片607进行编解码。

在本公开内容中，无需任何进一步的放大和/或超分辨率化，就将图片重建为它们被编解码的分辨率并直接保存到DPB中。在图6所示的例子中，将第三图片603、第四图片604、第五图片605和第六图片606(K+2，K+3，K+4和K+5)全部以第二(较低)空间分辨率保存到DPB中，而将第一图片601、第二图片602和第七图片607(K，K+1和K+6)以第一(较高)分辨率保存到DPB中。换句话说，将集合中具有第一空间分辨率的图片直接以第一空间分辨率存储在解码图片缓冲区中，并将集合中具有第二空间分辨率的图片直接以第二空间分辨率存储在解码图片缓冲区中。结果，解码图片缓冲区存储具有不同空间分辨率的图片。在一个或多个例子中，解码图片缓冲区以基于通信信道中的不同可用带宽的其原始空间分辨率来存储图片。

因此，根据本公开内容，参考图片列表可以包含具有不同空间分辨率的图片。值得一提的是，该特征与基础的解码参考图片标记过程正交。例如，它可以与H.264/AVC中的滑动窗或MMCO处理一起使用。它也可以与H.265/HEVC中的RPS及其相关联的参考图片列表生成过程一起使用。

允许参考图片列表中的不同空间分辨率图片的主要动机是VVC中更复杂的运动模型的可用性。例如，利用仿射预测，当参考图片与正在编解码的当前图片具有不同的空间分辨率时，自动地处理实现良好预测所需要的缩放效果。

在HEVC中，在SPS 302(图3)中以视频序列等级来标示图片宽度和高度，并且假定视频序列中的每个图片具有相同的大小。根据本公开内容，直接地和/或间接地按照图片等级标示图片宽度和图片高度(例如，在PPS304中)。仍然可以按照序列等级来标示原始视频分辨率(例如，在SPS 302中)。

这样的信令可以采取各种形式。例如，在PPS 304中，可以根据沿着每个维度有多少亮度样点值，来标示图片宽度和高度。替代地或另外地，在PPS 304中，也可以将它们标示成相对于原始视频图片宽度和高度的比率值。例如，这样的比率值可以是1/4、1/2、3/4和1.0等等。可以将这些比率值标示成分母和分子。也可以将它们标示成针对一组预定义的分母和分子的索引值。

根据本公开内容，除了图片POC差之外，运动矢量缩放可以是基于图片分辨率。例如，根据图片空间分辨率的相对比率，可以相应地调整运动矢量缩放。

根据本公开内容，在参考图片与正在编解码的当前图片具有不同的空间分辨率的情况下，可以基于这两个空间分辨率来推导全局运动矢量，以至少解决由于具有不同的空间分辨率而造成的这两个图片之间的缩放效果。

对于要进行编解码的当前图片，可以针对每个参考图片来推导全局运动矢量。假定针对当前图片中的每个块解码和/或标示的运动矢量已使用与用于该运动矢量解码器的相应参考图片相关联的全局运动矢量进行了预测和/或标示。结果，根据标示的块的运动矢量和全局运动矢量，联合地导出当前块的实际运动矢量。

在要进行编解码的当前图片与参考图片具有相同的空间分辨率的情况下，可能不需要与该参考图片一起使用的全局运动矢量。

全局运动矢量可以使用各种运动模型。例如，它可以使用仿射运动模型来传达上面所提及的不同图片之间的缩放效果。还可以使用其它运动模型来传达缩放效果。

根据本公开内容，不必在比特流中将这样的全局运动矢量明确地发信号发送给解码器。取而代之的是，在编码器端和解码器端两者可以基于相同的规则集来导出。这些相同的规则集可以至少包括：将图片空间分辨率作为确定全局运动矢量的因素之一。

根据本公开内容的另一个实施例，可以在比特流中，将每个参考图片的全局运动矢量发信号发送给解码器。这样的信令也可以采取各种形式。例如，可以将全局运动矢量中的每一个直接标示成运动矢量。也可以将全局运动矢量中的每一个标示成沿着水平和垂直维度的缩放比例。替代地，也可以将全局运动矢量中的每一个标示成针对一组预定义的运动矢量和/或缩放比例的索引值。

根据当前公开内容，尽管不需要将DPB中的较低/较高分辨率图片上采样/下采样为当前图片的空间分辨率，但是仍可以将一组滤波器发送给解码器，以指示要用于更好的运动补偿预测或更好的显示的优选图片上采样/下采样滤波器。可以将这样的信令放置在报头信息中，或者放置在SPS 302和PPS 304中。也可以将其标示成SEI(补充增强信息)。

在一些例子中，包括两个或更多个图片的集合不包括任何支持随机访问的图片。

在一些例子中，第二空间分辨率小于第一空间分辨率，包括从第一空间分辨率到第二空间分辨率的分辨率降级，并且该方法还包括：仅在水平方向上降级分辨率，仅在垂直方向上降级分辨率，或者在水平方向和垂直方向两者上降级分辨率。

在一些例子中，该方法还包括：在具有动态变化的带宽容量的通信信道上发送包括两个或更多个图片的编码集合；以及响应于通信信道的带宽容量下降，将第二空间分辨率设置为小于第一空间分辨率。

在一些例子中，该方法还包括：在具有动态变化的带宽容量的通信信道上发送包括两个或更多个图片的编解码集合；以及响应于通信信道的带宽容量增加，将第二空间分辨率设置为大于第一空间分辨率。

在一些例子中，包括两个或更多个图片的所述集合包括参考图片列表，该参考图片列表包含具有不同空间分辨率的图片。

在一些例子中，使用仿射预测来为所述包括两个或更多个图片的集合提供增强的缩放效果，其中，所述参考图片列表包括两个或更多个图片，其每个图片与当前正在编解码的新图片具有不同的空间分辨率。

在一些例子中，该方法还包括：使用图片参数集，标示所述包括两个或更多个图片的集合中的每个图片的图片宽度和图片高度。

在一些例子中，该方法还包括通过以下操作来标示所述图片宽度和所述图片高度：标示所述包括两个或更多个图片的集合的第一维度中的亮度样点的第一数量，以及标示所述包括两个或更多个图片的集合的第二维度中的亮度样点的第二数量。

在一些例子中，该方法还包括通过以下操作来标示所述图片宽度和所述图片高度：标示针对所述包括两个或更多个图片的集合相对于先前图片宽度和先前图片高度的比率值。在一些例子中，将该比率值标示为分子和分母。在一些例子中，将该比率值作为针对一组预定义的分子和分母中的索引值来标示。

在一些例子中，该方法还包括：执行运动矢量缩放，以及响应于第一空间分辨率和第二空间分辨率之间的差异来调整运动矢量缩放。

在一些例子中，该方法还包括：基于第一空间分辨率和第二空间分辨率来推导全局运动矢量，以解决第一图片和第二图片之间的缩放效果。

在一些例子中，该方法还包括：针对所述包括两个或更多个图片的集合中的每个对应图片，推导各自的全局运动矢量，所述包括两个或更多个图片的集合包括参考图片集合；所述包括两个或更多个图片的集合中的每个图片包含多个块；以及对标示的用于所述包括两个或更多个图片的集合中的所述多个块里的每个块的运动矢量进行解码。标示的运动矢量是使用与所述包括两个或更多个图片的集合中的相应图片相关联的各个全局运动矢量来预测的。根据标示的运动矢量和全局运动矢量，来联合地导出当前图片的当前块的实际运动矢量。

在一些例子中，该方法还包括：使用仿射运动模型来传达第一图片和第二图片之间的缩放效果。

在一些例子中，该方法还包括：基于在解码器和编码器两者处应用的相同规则集，在解码器处导出每个相应的全局运动矢量。这些相同的规则集考虑第一空间分辨率和/或第二空间分辨率中的至少一个。

在一些例子中，该方法还包括：使用沿着水平维度的第一缩放比例和沿着垂直维度的第二缩放比例，来标示每个相应的全局运动矢量。

在一些例子中，该方法还包括：使用索引到一组预定义运动矢量或缩放比例的一组索引值，来标示每个相应的全局运动矢量。

在一些例子中，该方法还包括：通过使用以下各项中的至少一项来标示所选择的滤波器：报头信息、补充增强信息、图片参数集或序列参数集。

在一些例子中，所述包括两个或更多个图片的集合不包括任何支持随机访问的图片。

在一些例子中，第二空间分辨率小于第一空间分辨率，包括从第一空间分辨率到第二空间分辨率的分辨率降级，并且该装置还被配置为仅在水平方向上降级分辨率，仅在垂直方向上降级分辨率，或者在水平方向和垂直方向两者上降级分辨率。

在一些例子中，该装置还包括数据发射机，其被配置为在具有动态变化的带宽容量的通信信道上发送包括两个或更多个图片的编解码集合，并且被配置为响应于通信信道的带宽容量下降，将第二空间分辨率设置为小于第一空间分辨率。

在一些例子中，该装置还包括数据发射机，其被配置为在具有动态变化的带宽容量的通信信道上发送包括两个或更多个图片的编解码集合，并且被配置为响应于通信信道的带宽容量增加，将第二空间分辨率设置为大于第一空间分辨率。

在一些例子中，所述包括两个或更多个图片的集合包括参考图片列表，该参考图片列表包含具有不同空间分辨率的图片。

在一些例子中，执行仿射预测过程来为所述包括两个或更多个图片的集合提供增强的缩放效果，其中，所述参考图片列表包括两个或更多个图片，其每个图片与当前正在编解码的新图片具有不同的空间分辨率。

在一些例子中，该装置还包括发射机，其被配置为使用图片参数集，标示所述包括两个或更多个图片的集合中的每个图片的图片宽度和图片高度。在一些例子中，所述发射机进一步被配置为通过以下操作来标示所述图片宽度和所述图片高度：标示所述包括两个或更多个图片的集合的第一维度中的亮度样点的第一数量，并标示所述包括两个或更多个图片的集合的第二维度中的亮度样点的第二数量。在一些例子中，所述发射机进一步被配置为通过以下操作来标示所述图片宽度和所述图片高度：标示针对所述包括两个或更多个图片的集合的相对于先前图片宽度和先前图片高度的比率值。

在一些例子中，将该比率值标示为分子和分母。

在一些例子中，将该比率值作为针对一组预定义的分子和分母中的索引值来标示。

在一些例子中，该装置进一步被配置为：执行运动矢量缩放，并响应于第一空间分辨率和第二空间分辨率之间的差异来调整运动矢量缩放。

在一些例子中，该装置进一步被配置为：基于第一空间分辨率和第二空间分辨率来推导全局运动矢量，以解决第一图片和第二图片之间的缩放效果。

在一些例子中，该装置进一步被配置为：针对所述包括两个或更多个图片的集合中的每个对应图片，推导各自的全局运动矢量，所述包括两个或更多个图片的集合包括参考图片集合；所述包括两个或更多个图片的集合中的每个图片包含多个块；以及对标示的用于所述包括两个或更多个图片的集合中的所述多个块里的每个块的运动矢量进行解码。标示的运动矢量是使用与所述包括两个或更多个图片的集合中的相应图片相关联的各个全局运动矢量来预测的。根据标示的运动矢量和全局运动矢量，来联合地导出当前图片的当前块的实际运动矢量。

在一些例子中，该装置进一步被配置为：使用仿射运动模型来传达第一图片和第二图片之间的缩放效果。

在一些例子中，该装置还包括解码器，其被配置为基于在解码器和编码器两者处应用的相同规则集，导出每个相应的全局运动矢量。这些相同的规则集考虑第一空间分辨率或第二空间分辨率中的至少一个。

在一些例子中，该装置进一步被配置为：使用沿着水平维度的第一缩放比例和沿着垂直维度的第二缩放比例，来标示每个相应的全局运动矢量。

在一些例子中，该装置进一步被配置为：使用索引到一组预定义运动矢量或缩放比例的一组索引值，来标示每个相应的全局运动矢量。

在一些例子中，该装置进一步被配置为通过使用以下各项中的至少一项来标示所选择的滤波器：报头信息、补充增强信息、图片参数集或序列参数集。

在一个或多个例子中，可以以硬件、软件、固件或者其任意组合的方式来实现所描述的功能。当以软件方式实现时，可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质进行传输，并且其可以由基于硬件的处理单元来执行。计算机可读介质可以包括计算机可读存储介质，其中计算机可读存储介质对应于诸如数据存储介质之类的有形介质或者通信介质，通信介质包括例如根据通信协议来促进将计算机程序从一个地方传送到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于：(1)非临时性的有形计算机可读存储介质；或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是能够由一个或多个计算机或者一个或多个处理器访问以检索指令、代码和/或数据结构，以实现本申请中所描述的实施方式的任何可用介质。计算机程序产品可以包括计算机可读介质。

此外，可以使用包括一个或多个电路的装置来实现上面的方法，这些电路包括专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子组件。该装置可以将这些电路与其它硬件或软件组件结合使用，以执行上面描述的方法。可以至少部分地使用一个或多个电路来实现上面所公开的每个模块、子模块、单元或子单元。

通过考虑此处公开的本发明的说明书和实践，本发明的其它实施例对本领域普通技术人员而言将是显而易见的。本申请旨在覆盖遵循本发明的一般原理的本发明的任何变型、用途或修改，并且包括本领域已知或惯常实践中对本公开内容的偏离。说明书和实施例仅被认为是示例性的，本发明的真实范围和精神由所附权利要求书指示。

应当理解，本发明并不限于上面所描述并且在附图中说明的确切示例，并且在不脱离本发明的保护范围的情况下，可以进行各种修改和改变。本发明的保护范围仅仅由所附权利要求书进行界定。

Claims

1.一种视频编解码方法，包括：

对包括两个或更多个图片的集合进行编解码，所述集合至少包括以第一空间分辨率编解码的第一图片和以不同于所述第一空间分辨率的第二空间分辨率编解码的第二图片；

基于相应的空间分辨率，将所述包括两个或更多个图片的集合存储在解码图片缓冲区中；以及

使用存储在所述解码图片缓冲区中的所述包括两个或更多个图片的集合，作为用于对所述包括两个或更多个图片的集合之后的一个或多个连续图片进行编解码的参考图片集合。

2.根据权利要求1所述的视频编解码方法，还包括：

将所述包括两个或更多个图片的集合并入到参考图片列表中，所述参考图片列表至少包含具有两个不同空间分辨率的图片。

3.根据权利要求1所述的视频编解码方法，其中，所述第二空间分辨率小于所述第一空间分辨率，包括从所述第一空间分辨率到所述第二空间分辨率的分辨率降级，并且所述方法还包括：仅在水平方向上降级所述分辨率，仅在垂直方向上降级所述分辨率，或者在水平方向和垂直方向两者上降级所述分辨率。

4.根据权利要求1所述的视频编解码方法，其中，所述方法还包括：使用图片参数集，标示针对所述包括两个或更多个图片的集合中的每个图片的图片宽度和图片高度。

5.根据权利要求4所述的视频编解码方法，其中，所述标示还包括：标示所述包括两个或更多个图片的集合的第一维度中的亮度样点的第一数量；以及标示所述包括两个或更多个图片的集合的第二维度中的亮度样点的第二数量。

6.根据权利要求4所述的视频编解码方法，其中，所述标示还包括：标示针对所述包括两个或更多个图片的集合的相对于先前图片宽度和先前图片高度的比率值。

7.根据权利要求6所述的视频编解码方法，其中，使用分子和分母来标示所述比率值。

8.根据权利要求6所述的视频编解码方法，其中，将所述比率值作为针对一组预定义的分子和分母中的索引值来进行标示。

9.根据权利要求1所述的视频编解码方法，还包括：

执行运动矢量缩放，以及响应于所述第一空间分辨率与所述第二空间分辨率之间的差异而调整所述运动矢量缩放。

10.一种视频编解码装置，包括：

编解码器，其被配置为对包括两个或更多个图片的集合进行编解码，所述集合至少包括以第一空间分辨率编解码的第一图片和以不同于所述第一空间分辨率的第二空间分辨率编解码的第二图片；以及

解码图片缓冲区，其被配置为基于相应的空间分辨率来存储所述包括两个或更多个图片的集合；

其中，所述编解码器被配置为使用存储在所述解码图片缓冲区中的所述包括两个或更多个图片的集合，作为用于对所述包括两个或更多个图片的集合之后的一个或多个连续图片进行编解码的参考图片集合。

11.根据权利要求10所述的视频编解码装置，其中，将所述包括两个或更多个图片的集合并入到参考图片列表中，所述参考图片列表至少包含具有两个不同空间分辨率的图片。

12.根据权利要求10所述的视频编解码装置，其中，所述第二空间分辨率小于所述第一空间分辨率，包括从所述第一空间分辨率到所述第二空间分辨率的分辨率降级，并且所述装置进一步被配置为：仅在水平方向上降级所述分辨率，仅在垂直方向上降级所述分辨率，或者在水平方向和垂直方向两者上降级所述分辨率。

13.根据权利要求10所述的视频编解码装置，进一步被配置为：使用图片参数集，标示针对所述包括两个或更多个图片的集合中的每个图片的图片宽度和图片高度。

14.根据权利要求13所述的视频编解码装置，进一步被配置为：标示所述包括两个或更多个图片的集合的第一维度中的亮度样点的第一数量；以及标示所述包括两个或更多个图片的集合的第二维度中的亮度样点的第二数量。

15.根据权利要求13所述的视频编解码装置，进一步被配置为：标示针对所述包括两个或更多个图片的集合的相对于先前图片宽度和先前图片高度的比率值。

16.根据权利要求15所述的视频编解码装置，其中，使用分子和分母来标示所述比率值。

17.根据权利要求15所述的视频编解码装置，其中，将所述比率值作为针对一组预定义的分子和分母中的索引值来标示。

18.根据权利要求1所述的视频编解码装置，还包括：