CN115552907A

CN115552907A - 用于在视频编解码中用信号通知语法元素的方法和装置

Info

Publication number: CN115552907A
Application number: CN202180024919.2A
Authority: CN
Inventors: 陈漪纹; 修晓宇; 马宗全; 朱弘正; 陈伟; 王祥林; 于冰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2021-03-23
Publication date: 2022-12-30
Also published as: EP4111692A1; KR20240074908A; WO2021202174A1; MX2022012250A; JP2023511788A; JP7488358B2; KR20240074008A; KR20240074907A; EP4111692A4; US20230031699A1; KR20220140642A; KR20240074009A; CN116405699A; KR102667418B1

Abstract

提供了用于视频编解码的方法和装置。该方法包括：解码器确定是否在与图片相关联的图片头部(PH)中用信号通知一个或多个参考图片列表，以及一个或多个参考图片列表指示与图片相关联的一个或多个条带是否是双向预测的。该方法还包括：响应于确定在PH中用信号通知一个或多个参考图片列表以及一个或多个参考图片列表指示一个或多个条带不是双向预测的，解码器将一个或多个约束添加到PH中的一个或多个语法元素。

Description

用于在视频编解码中用信号通知语法元素的方法和装置

相关申请的交叉引用

本申请要求享有于2020年3月31日提交的题为“Signaling of Syntax Elementsin Video Coding”的美国临时申请第63/003,226号的优先权，该临时申请的全部内容通过引用并入本文以用于所有目的。

技术领域

本公开涉及视频编解码和压缩，并且具体地但不限于用于在视频编码中用信号通知语法元素的方法和装置。

背景技术

可以使用各种视频编解码技术来压缩视频数据。根据一种或多种视频编解码标准来执行视频编解码。例如，现在一些公知的视频编解码标准包括通用视频编解码(VVC)、高效视频编解码(HEVC，也称为H.265或MPEG-H Part2)和高级视频编解码(AVC，也称为H.264或MPEG-4Part 10)，其由ISO/IEC MPEG和ITU-T VECG联合开发。AOMedia Video 1(AV1)由开放媒体联盟(AOM)开发，作为其先前标准VP9的接替版。指代数字音频和数字视频压缩标准的音视频编解码(AVS)是由中国的音视频编解码标准工作组开发的另一视频压缩标准系列。大多数现有的视频编解码标准都建立在著名的混合视频编解码框架之上，即，使用基于块的预测方法(例如，帧间预测、帧内预测)来减少视频图像或序列中存在的冗余，并且使用变换编解码来压缩预测误差的能量。视频编解码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的下降。

发明内容

本公开提供与在视频编解码中用信号通知语法元素有关的技术的示例。

根据本公开的第一方面，提供了一种用于视频编解码的方法。该方法包括：解码器确定是否在与图片相关联的图片头部(PH)中用信号通知一个或多个参考图片列表，以及一个或多个参考图片列表指示与图片相关联的一个或多个条带是否是双向预测的。此外，该方法包括：响应于确定在PH中用信号通知一个或多个参考图片列表以及一个或多个参考图片列表指示一个或多个条带不是双向预测的，由解码器将一个或多个约束添加到PH中的一个或多个语法元素。

根据本公开的第二方面，提供了一种用于视频编解码的方法。该方法包括：解码器使用启用标志来指定一个或多个时间运动矢量预测值是否用于针对与图片的PH相关联的一个或多个条带的帧间预测。该方法还包括：解码器根据应用于图片的尺寸以进行缩放比计算的多个偏移来约束启用标志的值。

根据本公开的第三方面，提供了一种用于视频编解码的装置。该装置包括：一个或多个处理器；以及被配置为存储可由一个或多个处理器执行的指令的存储器。一个或多个处理器在执行指令时被配置为：确定是否在与图片相关联的PH中用信号通知一个或多个参考图片列表，以及一个或多个参考图片列表指示与图片相关联的一个或多个条带是否是双向预测的。此外，一个或多个处理器被配置为：响应于确定在PH中用信号通知一个或多个参考图片列表以及一个或多个参考图片列表指示一个或多个条带不是双向预测的，将一个或多个约束添加到PH中的一个或多个语法元素。

根据本公开的第四方面，提供了一种用于视频编解码的装置。该装置包括：一个或多个处理器；以及被配置为存储可由一个或多个处理器执行的指令的存储器。一个或多个处理器在执行指令时被配置为：使用启用标志来指定一个或多个时间运动矢量预测值是否用于针对与图片的PH相关联的一个或多个条带的帧间预测。一个或多个处理器还被配置为：根据应用于图片的尺寸以进行缩放比计算的多个偏移来约束启用标志的值。

根据本公开的第五方面，提供了一种用于视频编解码的非暂时性计算机可读存储介质，其存储计算机可执行指令。该指令在由一个或多个计算机处理器执行时，使一个或多个计算机处理器执行根据本公开的第一方面的用于视频编解码的方法。

根据本公开的第六方面，提供了一种用于视频编解码的非暂时性计算机可读存储介质，其存储计算机可执行指令。该指令在由一个或多个计算机处理器执行时，使一个或多个计算机处理器执行根据本公开的第二方面的用于视频编解码的方法。

附图说明

将通过参考附图中所示的具体示例来呈现对本公开的示例的更具体的描述。鉴于这些附图仅描绘了一些示例并因此不被认为是对范围的限制，将通过使用附图以附加的特异性和细节来描述和解释这些示例。

图1是示出根据本公开的一些实现方式的示例性视频编码器的框图。

图2是示出根据本公开的一些实现方式的示例性视频解码器的框图。

图3示出了根据本公开的一些实现方式的被划分为多个编码树单元(CTU)的图片的示例。

图4A-4D是示出根据本公开的一些实现方式的多类型树分割模式的示意图。

图5是示出根据本公开的一些实现方式的用于视频编解码的示例性装置的框图。

图6是示出根据本公开的一些实现方式的视频编解码的示例性过程的流程图。

图7是示出根据本公开的一些实现方式的视频编解码的示例性过程的流程图。

具体实施方式

现在将详细参考具体实现方式，其示例在附图中示出。在下面的详细描述中，阐述了许多非限制性的具体细节以帮助理解本文提出的主题。但是对于本领域的普通技术人员来说显而易见的是可以使用各种替代方案。例如，对于本领域的普通技术人员来说显而易见的是，本文提出的主题可以在具有数字视频能力的多种类型的电子设备上实现。

贯穿本说明书对“一个实施例”、“实施例”、“示例”、“一些实施例”、“一些示例”或类似语言的引用意味着所描述的特定特征、结构或特性包含于至少一个实施例或示例中。除非另有明确说明，否则结合一个或一些实施例所描述的特征、结构、元件或特性也适用于其他实施例。

在整个公开内容中，术语“第一”、“第二”、“第三”等都用作命名法，仅用于引用相关元素，例如，设备、组件、组合物、步骤等，而不暗示任何空间或时间次序，除非另有明确说明。例如，“第一设备”和“第二设备”可以指代两个单独形成的设备，或者同一设备的两个零件、组件或操作状态，并且可以任意命名。

术语“模块”、“子模块”、“电路”、“子电路”、“电路系统”、“子电路系统”、“单元”或“子单元”可以包括存储器(共享的、专用的或组)，其存储可以由一个或多个处理器执行的代码或指令。模块可以包括具有或没有存储的代码或指令的一个或多个电路。模块或电路可以包括直接或间接连接的一个或多个组件。这些组件可以或者可以不物理附接至彼此或彼此相邻定位。

如本文所用，术语“如果”或“当……时”可以理解为表示“在……时”或“响应于”，这取决于上下文。这些术语如果出现在权利要求中，则可能并不表示相关限制或特征是有条件的或可选的。例如，一种方法可以包括以下步骤：i)当条件X存在时或如果条件X存在，则执行功能或动作X'，以及ii)当条件Y存在时或如果条件Y存在，则执行功能或动作Y'。该方法可以用执行功能或动作X'的能力和执行功能或动作Y'的能力两者来实现。因此，功能X'和Y'都可以在不同的时间、在方法的多次执行中被执行。

单元或模块可以纯粹由软件、纯粹由硬件或者由硬件和软件的组合来实现。例如，在纯软件实现中，单元或模块可以包括功能相关的代码块或软件组件，它们直接或间接链接在一起，以执行特定功能。

图1示出了说明可以结合使用基于块的处理的许多视频编解码标准来使用的示例性基于块的混合视频编码器100的框图。在编码器100中，视频帧被分区成多个视频块以用于处理。对于每个给定视频块，基于帧间预测方法或帧内预测方法来形成预测。在帧间预测中，通过运动估计和运动补偿，基于来自先前重建帧的像素来形成一个或多个预测值。在帧内预测中，预测值是基于当前帧中的重建像素形成的。通过模式决策，可以选择最佳预测值来预测当前块。

表示当前视频块与其预测值之间的差的预测残差被发送到变换电路102。然后将变换系数从变换电路102发送到量化电路104以用于熵减少。然后将量化系数馈送到熵编码电路106以生成压缩的视频比特流。如图1所示，来自帧间预测电路和/或帧内预测电路112的预测相关信息110(例如，视频块分区信息、运动矢量、参考图片索引和帧内预测模式)也通过熵编码电路106进行馈送并保存到压缩的视频比特流114中。

在编码器100中，还需要解码器相关电路以便重建像素用于预测目的。首先，通过逆量化116和逆变换电路118重建预测残差。该重建的预测残差与块预测值120组合以生成当前视频块的未经滤波的重建像素。

帧内预测(也称为“空间预测”)使用来自同一视频图片和/或条带中已经编码的相邻块的样本(称为参考样本)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。

帧间预测(也称为“时间预测”)使用来自已经编码的视频图片的重建像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。给定编码单元(CU)或编码块的时间预测信号通常通过一个或多个运动矢量(MV)用信号通知，这些运动矢量指示在当前CU与其时间参考之间的运动的量和方向。此外，如果支持多个参考图片，则另外发送一个参考图片索引，其用于标识时间预测信号来自参考图片存储库中的哪个参考图片。

在执行空间和/或时间预测之后，编码器100中的帧内/帧间模式决策电路121例如基于率失真优化方法来选择最佳预测模式。然后从当前视频块中减去块预测值120；并且使用变换电路102和量化电路104对得到的预测残差进行去相关。得到的量化残差系数由逆量化电路116进行逆量化并由逆变换电路118进行逆变换以形成重建残差，然后将重建残差加回预测块以形成CU的重建信号。此外，在重建CU被放入图片缓冲器117的参考图片存储库并用于编码未来视频块之前，可以对重建CU应用环路滤波115，例如，去块滤波器、样本自适应偏移(SAO)和/或自适应环路滤波器(ALF)。为了形成输出视频比特流114，编码模式(帧间或帧内)、预测模式信息、运动信息和量化残差系数全部被发送到熵编码单元106以被进一步压缩和打包以形成比特流。

例如，去块滤波器可用于AVC、HEVC以及当前版本的VVC。在HEVC中，定义了被称为SAO(样本自适应偏移)的附加环路滤波器，以进一步提高编解码效率。在当前版本的VVC标准中，正在积极研究另一种称为ALF(自适应环路滤波器)的环路滤波器，它很有可能被包含于最终标准。

这些环路滤波器操作是可选的。执行这些操作有助于提高编解码效率和视觉质量。它们也可以作为编码器100呈现的决定被关闭以节省计算复杂度。

应当注意，如果编码器100打开这些滤波器选项，帧内预测通常基于未经滤波的重建像素，而帧间预测基于经滤波的重建像素。

图2是示出可结合许多视频编解码标准使用的示例性基于块的视频解码器200的框图。该解码器200类似于图1的编码器100中的重建相关部分。在解码器200中，传入的视频比特流201首先通过熵解码202被解码，以导出量化系数级别和预测相关信息。然后通过逆量化204和逆变换206处理量化系数级别以获得重建的预测残差。在帧内/帧间模式选择器212中实现的块预测值机制被配置为基于解码的预测信息来执行帧内预测208或运动补偿210。通过使用加法器214将来自逆变换206的重建的预测残差与由块预测值机制生成的预测输出相加，获得未经滤波的重建像素的集合。

重建块在被存储在用作参考图片存储库的图片缓冲器213之前可以进一步经过环路滤波器209。在图片缓冲器213中的重建视频可以被发送以驱动显示设备，以及用于预测未来的视频块。在环路滤波器209被打开的情况下，对这些重建像素执行滤波操作以导出最终重建视频输出222。

上面提到的视频编码/解码标准(例如，VVC、JEM、HEVC、MPEG-4，Part 10)在概念上是相似的。例如，它们都使用基于块的处理。下面详细说明一些标准中的块分区方案。

高效视频编解码(HEVC)

HEVC基于混合的基于块的运动补偿变换编解码架构。压缩的基本单位称为CTU。最大CTU尺寸被定义为最多64x64亮度像素，以及两个32x32色度像素块(对于4:2:0色度格式)。每个CTU可以包含一个CU或递归地被分割为四个较小的CU，直到达到预先定义的最小CU尺寸。每个CU(也称为叶CU)包含一个或多个预测单元(PU)和变换单元(TU)树。

通常，除了单色内容外，CTU可以包括一个亮度编码树块(CTB)和两个对应的色度CTB；CU可以包括一个亮度编码块(CB)和两个对应的色度CB；PU可以包括一个亮度预测块(PB)和两个对应的色度PB；以及TU可以包括一个亮度变换块(TB)和两个对应的色度TB。然而，可能会出现例外，因为对于亮度和色度两者最小TB尺寸都是4x4(即，对于4:2:0颜色格式不支持2x2色度TB)，并且每个帧内色度CB始终只有一个帧内色度PB，而不管对应的帧内亮度CB中的帧内亮度PB的数量如何。

对于帧内CU，亮度CB可以由一个或四个亮度PB预测，并且两个色度CB中的每一个始终由一个色度PB预测，其中每个亮度PB具有一个帧内亮度预测模式，并且两个色度PB共享一个帧内色度预测模式。此外，对于帧内CU，TB尺寸不能大于PB尺寸。在每个PB中，应用帧内预测以从TB的相邻重建样本中预测PB内每个TB的样本。对于每个PB，除了33个方向性帧内预测模式外，还支持DC和平面模式以分别预测平坦区域和渐变区域。

对于每个帧间PU，可以选择包括帧间、跳过和合并在内的三种预测模式之一。一般而言，引入运动矢量竞争(MVC)方案以从包括空间运动候选和时间运动候选的给定候选集中选择运动候选。对运动估计的多个参考允许在2个可能的重建参考图片列表(即，列表0和列表1)中找到最佳参考。对于帧间模式(称为AMVP模式，其中AMVP代表高级运动矢量预测)，传输帧间预测指示符(列表0、列表1或双向预测)、参考索引、运动候选索引、运动矢量差(MVD)和预测残差。对于跳过模式和合并模式，仅传输合并索引，并且当前PU从由编码的合并索引所引用的相邻PU继承帧间预测指示符、参考索引和运动矢量。在跳过编码CU的情况下，还省略了残差信号。

多功能视频编解码(VVC)

在2018年4月10日至20日在美国圣地亚哥举行的第10次JVET会议上，JVET将多功能视频编解码(VVC)和VVC测试模型1(VTM1)的初稿定义为其参考软件实现方式。决定包括具有嵌套多类型树的四叉树作为VVC的初始新编码特征。多类型树是一种编码块分区结构，其包括二元分割和三元分割。此后，通过后续的JVET会议开发和更新了参考软件VTM，其中实现了编码和解码过程。

在VVC中，输入视频的图片被分区为称为CTU的块。使用具有嵌套多类型树结构的四叉树将CTU分割为CU，其中CU定义共享相同预测模式(例如，帧内或帧间)的像素区域。术语“单元”可以定义覆盖所有分量(例如，亮度和色度)的图像区域。术语“块”可以用于定义覆盖特定分量(例如，亮度)的区域，并且在考虑色度采样格式(例如，4:2:0)时，不同分量(例如，亮度与色度)的块在空间位置上可能不同。

将图片分区为CTU

图3示出了根据本公开的一些实现方式的被划分为多个CTU 302的图片300的示例。

在VCC中，图片被划分为CTU的序列。CTU概念与HEVC的CTU概念相同。对于具有三个样本阵列的图片，CTU由N×N的亮度样本块和两个对应的色度样本块组成。

CTU中亮度块的最大允许尺寸被指定为128×128(但是亮度变换块的最大尺寸为64×64)。

使用树结构对CTU进行分区

在HEVC中，通过使用表示为编码树的四元树结构将CTU分割为CU，以适应各种局部特性。在叶CU级别做出是使用图片间(时间)预测还是图片内(空间)预测对图片区域进行编码的决策。每个叶CU可以根据PU分割类型进一步分割成一个、两个或四个PU。在一个PU内部，应用相同的预测过程，并且在PU基础上将相关信息传输到解码器。在通过应用基于PU分割类型的预测过程获得残差块之后，叶CU可以根据类似于CU的编码树的另一种四元树结构被分区为变换单元(TU)。HEVC结构的一个关键特征是它具有包括CU、PU和TU在内的多个分区概念。

在VVC中，具有使用二元和三元分割分段结构的嵌套多类型树的四叉树取代了多分区单元类型的概念，即，它移除了CU、PU和TU概念的分离，除非尺寸对于最大变换长度而言太大的CU需要，并且支持CU分区形状的更多灵活性。在编码树结构中，CU可以是正方形或矩形形状。CTU首先通过四元树(又称四叉树)结构进行分区。然后，可以通过多类型树结构进一步对四元树叶节点进行分区。

图4A-4D是示出根据本公开的一些实现方式的多类型树分割模式的示意图。如图4A-4D所示，在多类型树结构中存在四种分割类型：垂直二元分割402(SPLIT_BT_VER)、水平二元分割404(SPLIT_BT_HOR)、垂直三元分割406(SPLIT_TT_VER)和水平三元分割408(SPLIT_TT_HOR)。多类型树叶节点称为CU，并且除非CU对于最大变换长度而言太大，否则这种分段用于预测和变换处理，而无需进一步分区。这意味着，在大多数情况下，CU、PU和TU在具有嵌套多类型树编码块结构的四叉树中具有相同的块尺寸。当最大支持变换长度小于CU的颜色分量的宽度或高度时，发生例外。

VVC中的语法

在VVC中，语法信令的比特流的第一层是网络抽象层(NAL)，其中比特流被划分为NAL单元的集合。一些NAL单元向解码器用信号通知公共控制参数，例如，序列参数集(SPS)和图片参数集(PPS)。其他内容包含视频数据。视频编码层(VCL)NAL单元包含已编码视频的条带。已编码图片被称为访问单元，并且可以被编码为一个或多个条带。

已编码视频序列以瞬时解码器刷新(IDR)图片开始。所有接下来的视频图片都被编码为条带。新的IDR图片用信号通知前一视频片段结束，并且新的视频片段开始。每个NAL单元以单字节头部开始，后跟原始字节序列有效载荷(RBSP)。RBSP包含已编码条带。条带是二进制编码的，因此可以用零比特填充它们以确保长度是整数字节数。条带由条带头部和条带数据组成。条带数据被指定为一系列CU。

在第16次JVET会议中采用了图片头部概念，每张图片传输一次图片头部，作为图片的第一VCL NAL单元。还提议将条带头部中先前的一些语法元素分组到该图片头部。功能上只需要每张图片传输一次的语法元素可以移动到图片头部，而不是在给定图片的条带中多次传输。

在VVC规范中，语法表指定了所有允许的比特流的语法的超集。可以在其他子句中直接或间接指定对语法的附加约束。下面的表1是VVC中条带头部和图片头部的语法表。一些语法的语义也在语法表之后说明。

表1

所选语法元素的语义

ph_temporal_mvp_enabled_flag指定时间运动矢量预测值是否可以用于与PH相关联的条带的帧间预测。如果ph_temporal_mvp_enabled_flag等于0，则与PH相关联的条带的语法元素应受到约束，使得在解码条带时不使用时间运动矢量预测值。否则(ph_temporal_mvp_enabled_flag等于1)，在解码与PH相关联的条带时可以使用时间运动矢量预测值。当不存在时，ph_temporal_mvp_enabled_flag的值被推断为等于0。当在已解码图片缓冲器(DPB)中没有参考图片具有与当前图片相同的空间分辨率时，ph_temporal_mvp_enabled_flag的值应等于0。

基于子块的合并MVP候选的最大数量MaxNumSubblockMergeCand导出如下：

其中MaxNumSubblockMergeCand的值应在0到5的范围内，包括端点。

slice_collocated_from_l0_flag等于1指定用于时间运动矢量预测的同位图片来自参考图片列表0。slice_collocated_from_l0_flag等于0指定用于时间运动矢量预测的同位图片来自参考图片列表1。

当slice_type等于B或P，ph_temporal_mvp_enabled_flag等于1，并且slice_collocated_from_l0_flag不存在时，以下适用：

-如果rpl_info_in_ph_flag等于1，则slice_collocated_from_l0_flag被推断为等于ph_collocated_from_l0_flag。

-否则(rpl_info_in_ph_flag等于0且slice_type等于P)，slice_collocated_from_l0_flag的值被推断等于1。

slice_collocated_ref_idx指定用于时间运动矢量预测的同位图片的参考索引。

当slice_type等于P时或者当slice_type等于B并且slice_collocated_from_l0_flag等于1时，slice_collocated_ref_idx引用参考图片列表0中的条目，并且slice_collocated_ref_idx的值应该在0到NumRefIdxActive[0]-1的范围内，包括端点。

当slice_type等于B并且slice_collocated_from_l0_flag等于0时，slice_collocated_ref_idx引用参考图片列表1中的条目，并且slice_collocated_ref_idx的值应在0到NumRefIdxActive[1]-1的范围内，包括端点。

当slice_collocated_ref_idx不存在时，以下适用：

-如果rpl_info_in_ph_flag等于1，则slice_collocated_ref_idx的值被推断等于ph_collocated_ref_idx。

-否则(rpl_info_in_ph_flag等于0)，slice_collocated_ref_idx的值被推断等于0。

比特流一致性的要求是由slice_collocated_ref_idx引用的图片对于已编码图片的所有条带应相同。

比特流一致性的要求是由slice_collocated_ref_idx引用的参考图片的pic_width_in_luma_samples和pic_height_in_luma_samples的值应分别等于当前图片的pic_width_in_luma_samples和pic_height_in_luma_samples的值，并且RprConstraintsActive[slice_collocated_from_l0_flag？0:1][slice_collocated_ref_idx]应等于0。

RprConstraintsActive[i][j]的值是在VVC规范的第8.3.2节中导出的。RprConstraintsActive[i][j]的值的导出如下所述。

参考图片列表构建的解码过程

参考图片列表构建的解码过程在非IDR图片的每个条带的解码过程开始时调用。

参考图片通过参考索引寻址。参考索引是参考图片列表中的索引。在解码I条带时，在条带数据的解码中不使用参考图片列表。在解码P条带时，在条带数据的解码中仅使用参考图片列表0(即，RefPicList[0])。在解码B条带时，在条带数据的解码中使用参考图片列表0和参考图片列表1(即，RefPicList[1])两者。

在非IDR图片的每个条带的解码过程开始时，导出参考图片列表RefPicList[0]和RefPicList[1]。参考图片列表用于标记如在视频编解码标准中指定的参考图片或用于解码条带数据。

对于非IDR图片中不是图片的第一个条带的I条带，可以导出RefPicList[0]和RefPicList[1]用于比特流一致性检查目的，但它们的导出对于解码当前图片或在解码次序中在当前图片后面的图片不是必需的。对于不是图片的第一个条带的P条带，可以导出RefPicList[1]以用于比特流一致性检查目的，但它的导出对于解码当前图片或在解码次序中在当前图片后面的图片不是必需的。

参考图片列表RefPicList[0]和RefPicList[1]、参考图片缩放比RefPicScale[i][j][0]和RefPicScale[i][j][1]以及参考图片缩放标志RprConstraintsActive[0][j]和RprConstraintsActive[1][j]导出如下：

scaling_win_left_offset、scaling_win_right_offset、scaling_win_top_offset以及scaling_win_bottom_offset指定应用于图片尺寸以进行缩放比计算的偏移。当不存在时，scaling_win_left_offset、scaling_win_right_offset、scaling_win_top_offset和scaling_win_bottom_offset的值被推断为分别等于pps_conf_win_left_offset、pps_conf_win_right_offset、pps_conf_win_top_offset和pps_conf_win_bottom_offset。

SubWidthC*(scaling_win_left_offset+scaling_win_right_offset)的值应小于pic_width_in_luma_samples，并且SubHeightC*(scaling_win_top_offset+scaling_win_bottom_offset)的值应小于pic_height_in_luma_samples。

变量PicOutputWidthL和PicOutputHeightL导出如下：

PicOutputWidthL＝pic_width_in_luma_samples-

SubWidthC*(scaling_win_right_offset+scaling_win_left_offset)

令refPicOutputWidthL和refPicOutputHeightL分别是引用这个PPS的当前图片的参考图片的PicOutputWidthL和PicOutputHeightL。比特流一致性的要求是满足以下所有条件：

-PicOutputWidthL*2应大于或等于refPicWidthInLumaSamples。

-PicOutputHeightL*2应大于或等于refPicHeightInLumaSamples。

-PicOutputWidthL应小于或等于refPicWidthInLumaSamples*8。

-PicOutputHeightL应小于或等于refPicHeightInLumaSamples*8。

-PicOutputWidthL*pic_width_max_in_luma_samples应大于或等于refPicOutputWidthL*(pic_width_in_luma_samples-Max(8,MinCbSizeY))。

-PicOutputHeightL*pic_height_max_in_luma_samples应大于或等于refPicOutputHeightL*(pic_height_in_luma_samples-Max(8,MinCbSizeY))。

在当前VVC中，在PH中用信号通知mvd_l1_zero_flag，而没有任何条件约束。然而，由标志mvd_l1_zero_flag控制的特征仅适用于当条带为双向预测条带(B条带)时。因此，当与图片头部相关联的条带不是B条带时，标志信令是冗余的。

在另一示例中，仅当在序列参数集(SPS)中用信号通知的对应启用标志(sps_bdof_pic_present_flag、sps_dmvr_pic_present_flag)分别为真时，在PH中用信号通知ph_disable_bdof_flag和ph_disable_dmvr_flag。然而，如下表2所示，由标志ph_disable_bdof_flag和ph_disable_dmvr_flag控制的特征仅适用于当条带是双向预测条带(B条带)时。因此，当与图片头部相关联的条带不是B条带时，这两个标志的信令是冗余的或无用的。

表2

第三个问题与语法ph_temporal_mvp_enabled_flag相关联。在当前VVC中，由于为了时间运动矢量预测(TMVP)导出而选择的同位图片的分辨率应与当前图片的分辨率相同，因此存在比特流一致性约束来检查ph_temporal_mvp_enabled_flag的值，如下所述：

当DPB中没有参考图片具有与当前图片相同的空间分辨率时，ph_temporal_mvp_enabled_flag的值应等于0。

然而，在当前VVC中，不仅同位图片的分辨率会影响TMVP的启用，而且应用于图片尺寸以进行缩放比计算的偏移也会影响TMVP的启用。然而，在当前VVC中，在ph_temporal_mvp_enabled_flag的比特流一致性中没有考虑偏移。

此外，比特流一致性的一个要求是由slice_collocated_ref_idx引用的图片对于已编码图片的所有条带应相同。但是，当已编码图片具有多个条带并且所有这些条带之间不存在公共参考图片时，这种比特流一致性就没有机会得到满足。并且在这种情况下，ph_temporal_mvp_enabled_flag应该被限制为0。

提出了几种方法来解决上述问题。注意，所提出的方法可以独立应用或组合应用。

由于由标志mvd_l1_zero_flag、ph_disable_bdof_flag和ph_disable_dmvr_flag控制的特征仅在条带是双向预测条带(B条带)时适用，因此根据本公开的方法，提出仅在相关联的条带是B条带时用信号通知这些标志。注意，当参考图片列表在PH中用信号通知时(例如，rpl_info_in_ph_flag＝1)，这意味着已编码图片的所有条带都使用在PH中用信号通知的相同参考图片。因此，当参考图片列表在PH中用信号通知并且用信号通知的参考图片列表指示当前图片不是双向预测的时，不需要用信号通知标志mvd_l1_zero_flag、ph_disable_bdof_flag和ph_disable_dmvr_flag。

在一些示例中，一些条件被添加到在PH中设置的那些语法中，以防止由于针对图片头部中的语法中的一些语法发送的不正确的值而导致的冗余信令或未定义的解码行为。下面说明了一些示例，其中变量num_ref_entries[i][RplsIdx[i]]表示列表i中的参考图片的数量。

在当前VVC中，不仅同位图片的分辨率可能会影响TMVP的启用，而且应用于图片尺寸以进行缩放比计算的偏移也可能会影响TMVP的启用。然而，在当前VVC中，在ph_temporal_mvp_enabled_flag的比特流一致性中没有考虑偏移。在一些示例中，提出向当前VVC添加比特流一致性约束，该比特流一致性约束要求ph_temporal_mvp_enabled_flag的值应取决于应用于图片大小以进行缩放比计算的偏移，如下所述：

当DPB中没有参考图片与当前图片具有相同的空间分辨率以及应用于图片尺寸以进行缩放比计算的相同偏移时，ph_temporal_mvp_enabled_flag的值应等于0。

上述比特流一致性约束也可以用另一种方式写成如下：当DPB中没有参考图片的关联变量值RprConstraintsActive[i][j]等于0时，ph_temporal_mvp_enabled_flag的值应等于0。

在当前VVC中，比特流一致性的一个要求是由slice_collocated_ref_idx引用的图片对于已编码图片的所有条带都应相同。然而，当已编码图片具有多个条带并且所有这些条带之间不存在公共参考图片时，这种比特流一致性没有机会得到满足。

在一些示例中，修改了对ph_temporal_mvp_enabled_flag的比特流一致性的要求，以考虑当前图片中的所有条带之间是否存在公共参考图片。

ph_temporal_mvp_enabled_flag指定时间运动矢量预测值是否可以用于与PH相关联的条带的帧间预测。如果ph_temporal_mvp_enabled_flag等于0，则与PH相关联的条带的语法元素应受到约束，使得在解码条带时不使用时间运动矢量预测值。否则(ph_temporal_mvp_enabled_flag等于1)，在解码与PH相关联的条带时可以使用时间运动矢量预测值。当不存在时，ph_temporal_mvp_enabled_flag的值被推断为等于0。当DPB中没有参考图片具有与当前图片相同的空间分辨率时，ph_temporal_mvp_enabled_flag的值应等于0。当在与PH相关联的所有条带中不存在公共参考图片时，ph_temporal_mvp_enabled_flag的值应等于0。

在一些示例中，关于slice_collocated_ref_idx的比特流一致性被简化为：比特流一致性的一个要求是RprConstraintsActive[slice_collocated_from_l0_flag？0:1][slice_collocated_ref_idx]应等于0。

图5是示出根据本公开的一些实现方式的用于视频编解码的示例性装置的框图。装置500可以是终端，例如，移动电话、平板计算机、数字广播终端、平板设备或个人数字助理。

如图5所示，装置500可以包括以下组件中的一个或多个：处理组件502、存储器504、电源组件506、多媒体组件508、音频组件510、输入/输出(I/O)接口512、传感器组件514和通信组件516。

处理组件502通常控制装置500的整体操作，例如，与显示、电话呼叫、数据通信、相机操作和记录操作有关的操作。处理组件502可以包括一个或多个处理器520，用于执行指令以完成上述方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块以促进在处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块以促进多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储不同类型的数据以支持装置500的操作。此类数据的示例包括用于在装置500上操作的任何应用或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器504可以由任何类型的易失性或非易失性存储设备或其组合来实现，并且存储器504可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。

电源组件506为装置500的不同组件供电。电源组件506可以包括电源管理系统、一个或多个电源以及与生成、管理和分配用于装置500电力相关联的其他组件。

多媒体组件508包括提供在装置500和用户之间的输出接口的屏幕。在一些示例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，则屏幕可以实现为接收来自用户的输入信号的触摸屏。触摸面板可以包括一个或多个触摸传感器，用于感测触摸面板上的触摸、滑动和手势。触摸传感器不仅可以感测触摸或滑动动作的边界，还可以检测与触摸或滑动操作相关的持续时间和压力。在一些示例中，多媒体组件508可以包括前置相机和/或后置相机。当装置500处于操作模式(例如，拍照模式或视频模式)时，前置相机和/或后置相机可以接收外部多媒体数据。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括麦克风(MIC)。当装置500处于操作模式(例如，呼叫模式、记录模式和语音识别模式)时，麦克风被配置为接收外部音频信号。接收到的音频信号可以进一步存储在存储器504中或经由通信组件516发送。在一些示例中，音频组件510还包括用于输出音频信号的扬声器。

I/O接口512提供在处理组件502和外围接口模块之间的接口。上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可以包括但不限于主页按钮、音量按钮、开始按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于在不同方面为装置500提供状态评估。例如，传感器组件514可以检测装置500的开/关状态和组件的相对位置。例如，组件是装置500的显示器和小键盘。传感器组件514还可以检测装置500或装置500的组件的位置变化、存在或不存在用户对装置500的接触、装置500的方向或加速/减速、以及装置500的温度变化。传感器组件514可以包括接近传感器，其被配置为在没有任何物理接触的情况下检测附近物体的存在。传感器组件514还可以包括光学传感器，例如，在成像应用中使用的CMOS或CCD图像传感器。在一些示例中，传感器组件514还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件516被配置为促进在装置500和其他设备之间的有线或无线通信。装置500可以基于诸如WiFi、4G或其组合的通信标准接入无线网络。在示例中，通信组件516经由广播信道从外部广播管理系统接收广播信号或广播相关信息。在示例中，通信组件516还可以包括用于促进短程通信的近场通信(NFC)模块。例如，NFC模块可以基于射频识别(RFID)技术、红外数据关联(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术、以及其他技术来实现。

在示例中，装置500可以由专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或执行上述方法的其他电子元件中的一个或多个来实现。

非暂时性计算机可读存储介质可以是例如硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、混合驱动器或固态混合驱动器(SSHD)、只读存储器(ROM)、光盘只读存储器(CD-ROM)、磁带、软盘等。

在步骤602中，处理器520确定是否在与图片相关联的PH中用信号通知一个或多个参考图片列表，以及一个或多个参考图片列表指示与图片相关联的一个或多个条带是否是双向预测的。

在步骤604中，处理器620响应于确定在PH中用信号通知一个或多个参考图片列表以及一个或多个参考图片列表指示一个或多个条带不是双向预测的，将一个或多个约束添加到PH中的一个或多个语法元素。

在一些示例中，一个或多个约束包括跳过解析一个或多个语法元素。

在一些示例中，一个或多个语法元素包括适用于一个或多个条带的一个或多个标志。

处理器520还可以使用启用标志(例如，如上所述的mvd_l1_zero_flag)来指定对应的运动矢量差(MVD)编解码语法结构是否不被解析，以及对于与PH相关联的一个或多个条带是否两个变量被设置为零，其中两个变量分别指定列表矢量分量与对应于列表矢量分量的预测之间的差。

在一些示例中，mvd_l1_zero_flag等于1指示mvd_coding(x0,y0,1)语法结构不被解析，并且MvdL1[x0][y0][compIdx]和MvdCpL1[x0][y0][cpIdx]对于compIdx＝0或1和cpIdx＝0、1或2被设置为等于0。此外，mvd_l1_zero_flag等于0指示mvd_coding(x0,y0,1)语法结构被解析。mvd_coding(x0,y0,1)语法结构是对应的MVD编解码语法结构。数组索引x0,y0指定所考虑的编码块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。

此外，变量MvdLX[x0][y0][compIdx](其中X为0或1)指定要使用的列表X矢量分量与其预测之间的差。数组索引x0,y0指定所考虑的编码块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。水平运动矢量分量差被指派compIdx＝0，而垂直运动矢量分量被指派compIdx＝1。

此外，变量MvdCpLX[x0][y0][cpIdx][compIdx](其中X为0或1)指定要使用的列表X矢量分量与其预测之间的差。数组索引x0,y0指定所考虑的编码块的左上方亮度样本相对于图片的左上方亮度样本的位置(x0,y0)。数组索引cpIdx指定控制点索引。水平运动矢量分量差被指派compIdx＝0，而垂直运动矢量分量被指派compIdx＝1。

处理器520还可以响应于确定启用标志等于0，约束一个或多个语法元素，使得对于一个或多个条带，MVD编解码语法结构被解析。

处理器520还可以响应于确定启用标志等于1，在解码一个或多个条带时跳过解析MVD语法结构。

处理器520还可以使用禁用标志(例如，上文所述的ph_disable_bdof_flag)来指定对于与PH相关联的一个或多个条带，基于双向光流(BDOF)帧间预测的帧间双向预测是否被禁用；响应于确定禁用标志等于0，约束一个或多个语法元素，使得在解码一个或多个条带时，基于BDOF帧间预测的帧间双向预测被启用；以及响应于确定禁用标志等于1，在解码一个或多个条带时禁用基于BDOF帧间预测的帧间双向预测。

处理器520还可以使用禁用标志(例如，上文所述的ph_disable_dmvr_flag)来指定对于与PH相关联的一个或多个条带，基于解码器运动矢量细化(DMVR)的帧间双向预测是否被禁用；响应于确定禁用标志等于0，约束一个或多个语法元素，使得在解码一个或多个条带时，基于DMVR的帧间双向预测被启用；以及响应于确定禁用标志等于1，在解码一个或多个条带时禁用基于DMVR的帧间双向预测。

在步骤702中，处理器520使用启用标志来指定一个或多个时间运动矢量预测值是否用于针对与图片的PH相关联的一个或多个条带的帧间预测。

在步骤704中，处理器520根据应用于图片的尺寸以进行缩放比计算的多个偏移来约束启用标志的值。

处理器520可以响应于确定在DPB中不存在与图片具有相同空间分辨率和相同偏移的参考图片，将启用标志设置为0。此外，偏移可以被应用于图片的尺寸以进行缩放比计算。

处理器520可以响应于确定在一个或多个条带中没有公共推理图片，将启用标志设置为0。

处理器520可以响应于确定在DPB中不存在参考图片缩放标志等于0的参考图片，将启用标志设置为0。

处理器520可以基于应用于图片的尺寸以进行缩放比计算的多个偏移来导出参考图片缩放标志。

在一些示例中，提供了一种用于视频编解码的装置。该装置包括：一个或多个处理器520；以及被配置为存储可由一个或多个处理器执行的指令的存储器504；其中，处理器在执行指令时被配置为执行图6中所示的方法。

在一些示例中，提供了一种用于视频编解码的装置。该装置包括一个或多个处理器520；以及被配置为存储可由一个或多个处理器执行的指令的存储器504；其中，处理器在执行指令时被配置为执行图7中所示的方法。

在一些其他示例中，提供了一种非暂时性计算机可读存储介质504，其中存储有指令。当指令由一个或多个处理器520执行时，指令使处理器执行图6中所示的方法。

在一些其他示例中，提供了一种非暂时性计算机可读存储介质504，其中存储有指令。当指令由一个或多个处理器520执行时，指令使处理器执行图7中所示的方法。

本公开的描述是为了说明的目的呈现的，而并不旨在穷举或限制于本公开。许多修改、变化和替代实现方式对于受益于前述描述和相关联的附图中呈现的教导的本领域普通技术人员将是显而易见的。

选择和描述示例是为了解释本公开的原理，并使本领域的其他技术人员能够理解本公开的各种实现方式，并且最好地利用基本原理和具有各种修改的各种实现方式以适于所设想的特定用途。因此，应当理解，本公开的范围不限于所公开的实现方式的具体示例，并且修改和其他实现方式旨在包含于本公开的范围内。

Claims

1.一种用于视频编解码的方法，包括：

由解码器确定是否在与图片相关联的图片头部(PH)中用信号通知一个或多个参考图片列表，以及所述一个或多个参考图片列表指示与所述图片相关联的一个或多个条带是否是双向预测的；以及

响应于确定在所述PH中用信号通知所述一个或多个参考图片列表，以及所述一个或多个参考图片列表指示所述一个或多个条带不是双向预测的，由所述解码器将一个或多个约束添加到所述PH中的一个或多个语法元素。

2.根据权利要求1所述的方法，其中，所述一个或多个约束包括跳过解析所述一个或多个语法元素。

3.根据权利要求1所述的方法，其中，所述一个或多个语法元素包括适用于所述一个或多个条带的一个或多个标志。

4.根据权利要求1所述的方法，还包括：

使用启用标志来指定对应的运动矢量差(MVD)编解码语法结构是否不被解析，以及对于与所述PH相关联的所述一个或多个条带是否两个变量被设置为零，其中，所述两个变量分别指定列表矢量分量与对应于所述列表矢量分量的预测之间的差；

响应于确定所述启用标志等于0，约束所述一个或多个语法元素，使得对于所述一个或多个条带，所述MVD编解码语法结构被解析；以及

响应于确定所述启用标志等于1，在解码所述一个或多个条带时跳过解析所述MVD编解码语法结构。

5.根据权利要求1所述的方法，还包括：

使用禁用标志来指定对于与所述PH相关联的所述一个或多个条带，基于双向光流(BDOF)帧间预测的帧间双向预测是否被禁用；

响应于确定所述禁用标志等于0，约束所述一个或多个语法元素，使得在解码所述一个或多个条带时，所述基于BDOF帧间预测的帧间双向预测被启用；以及

响应于确定所述禁用标志等于1，在解码所述一个或多个条带时禁用所述基于BDOF帧间预测的帧间双向预测。

6.根据权利要求1所述的方法，还包括：

使用禁用标志来指定对于与所述PH相关联的所述一个或多个条带，基于解码器运动矢量细化(DMVR)的帧间双向预测是否被禁用；

响应于确定所述禁用标志等于0，约束所述一个或多个语法元素，使得在解码所述一个或多个条带时，所述基于DMVR的帧间双向预测被启用；以及

响应于确定所述禁用标志等于1，在解码所述一个或多个条带时禁用所述基于DMVR的帧间双向预测。

7.一种用于视频编解码的方法，包括：

由解码器使用启用标志来指定一个或多个时间运动矢量预测值是否用于针对与图片的图片头部(PH)相关联的一个或多个条带的帧间预测；以及

由所述解码器根据应用于所述图片的尺寸以进行缩放比计算的多个偏移来约束所述启用标志的值。

8.根据权利要求7所述的方法，还包括：

响应于确定在已解码图片缓冲器(DPB)中不存在与所述图片具有相同空间分辨率和相同偏移的参考图片，将所述启用标志设置为0，其中，所述偏移被应用于所述图片的尺寸以进行缩放比计算。

9.根据权利要求7所述的方法，还包括：

响应于确定在所述一个或多个条带中不存在公共推理图片，将所述启用标志设置为0。

10.根据权利要求7所述的方法，还包括：

响应于确定在已解码图片缓冲器(DPB)中不存在参考图片缩放标志等于0的参考图片，将所述启用标志设置为0。

11.根据权利要求10所述的方法，还包括：

基于应用于所述图片的尺寸以进行缩放比计算的所述多个偏移来导出所述参考图片缩放标志。

12.一种用于视频编解码的装置，包括：

一个或多个处理器；以及

存储器，其被配置为存储可由所述一个或多个处理器执行的指令；

其中，所述一个或多个处理器在执行所述指令时被配置为：

确定是否在与图片相关联的图片头部(PH)中用信号通知一个或多个参考图片列表，以及所述一个或多个参考图片列表指示与所述图片相关联的一个或多个条带是否是双向预测的；以及

响应于确定在所述PH中用信号通知所述一个或多个参考图片列表，以及所述一个或多个参考图片列表指示所述一个或多个条带不是双向预测的，将一个或多个约束添加到所述PH中的一个或多个语法元素。

13.根据权利要求12所述的装置，其中，所述一个或多个约束包括跳过解析所述一个或多个语法元素。

14.根据权利要求12所述的装置，其中，所述一个或多个语法元素包括适用于所述一个或多个条带的一个或多个标志。

15.根据权利要求12所述的装置，其中，所述一个或多个处理器还被配置为：

16.根据权利要求12所述的装置，其中，所述一个或多个处理器还被配置为：

17.根据权利要求12所述的装置，其中，所述一个或多个处理器还被配置为：

18.一种用于视频编解码的装置，包括：

一个或多个处理器；以及

其中，所述一个或多个处理器在执行所述指令时被配置为：

使用启用标志来指定一个或多个时间运动矢量预测值是否能够用于针对与图片的图片头部(PH)相关联的一个或多个条带的帧间预测；以及

根据应用于所述图片的尺寸以进行缩放比计算的多个偏移来约束所述启用标志的值。

19.根据权利要求18所述的装置，其中，所述一个或多个处理器还被配置为：

20.根据权利要求18所述的装置，其中，所述一个或多个处理器还被配置为：

21.根据权利要求18所述的装置，其中，所述一个或多个处理器还被配置为：

22.根据权利要求21所述的装置，其中，所述一个或多个处理器还被配置为：

23.一种用于视频编解码的非暂时性计算机可读存储介质，其存储计算机可执行指令，所述计算机可执行指令在由一个或多个计算机处理器执行时，使所述一个或多个计算机处理器执行权利要求1-6中任一项所述的方法。

24.一种用于视频编解码的非暂时性计算机可读存储介质，其存储计算机可执行指令，所述计算机可执行指令在由一个或多个计算机处理器执行时，使所述一个或多个计算机处理器执行权利要求7-11中任一项所述的方法。