CN114208173A

CN114208173A - 参考图像列表中参考图像的类型

Info

Publication number: CN114208173A
Application number: CN202080049337.5A
Authority: CN
Inventors: 王业奎; 弗努·亨德里
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-03
Filing date: 2020-07-02
Publication date: 2022-03-18
Also published as: BR112021026826A2; EP3977727A4; KR20220024879A; JP2022538889A; US20220166970A1; EP3977727A1; WO2021003447A1; WO2021003446A1; JP2023129442A

Abstract

本申请提供了一种解码方法，包括：接收编码视频码流，其中，所述编码视频码流包括当前图像；推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；确定所述当前图像为清理随机接入(clean random access，CRA)图像，其中，所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。

Description

参考图像列表中参考图像的类型

相关申请案交叉引用

本专利申请要求王业奎等人于2019年7月3日提交的发明名称为“参考图像列表中参考图像的类型”的第62/870,588号美国临时专利申请的权益，该在先申请通过引用的方式并入本文中。

技术领域

本发明大体上涉及视频译码中的参考图像管理，具体涉及限制参考图像列表包括特定类型的参考图像。

背景技术

即使视频相对较短，也可能需要大量的视频数据来描述，当数据要在带宽容量受限的通信网络中进行流式传输或以其它方式传输时，这样可能会造成困难。因此，视频数据通常要先压缩，然后通过现代电信网络进行传输。由于内存资源可能有限，当在存储设备中存储视频时，该视频的大小也可能是一个问题。视频压缩设备通常在源侧使用软件和/或硬件对视频数据进行编码，然后进行传输或存储，从而减少表示数字视频图像所需的数据量。然后，对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下，需要改进压缩和解压缩技术，这些改进的技术能够在几乎不影响图像质量的情况下提高压缩比。

发明内容

第一方面涉及一种由视频解码器实现的解码方法。所述方法包括：所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像；所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；所述视频解码器确定所述当前图像为清理随机接入(clean random access，CRA)图像，其中，所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。

该方法提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述CRA图像是采用帧内预测进行解码的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行解码的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述第一参考图像列表被指定为RefPicList[0]，所述第二参考图像列表被指定为RefPicList[1]。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述方法还包括：在所述视频解码器的显示器上显示基于所述CRA图像生成的图像。

第二方面涉及一种由视频编码器实现的编码方法。所述方法包括：在当前图像为清理随机接入(clean random access，CRA)图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述CRA图像编码到视频码流中；所述视频编码器存储所述视频码流，以向视频解码器发送。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述CRA图像是采用帧内预测进行编码的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述方法还包括：采用帧间预测对按所述解码顺序位于所述CRA图像之后的一个或多个图像进行编码。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述方法还包括：向所述视频解码器发送所述视频码流。

第三方面涉及一种解码设备。所述解码设备包括：接收器，用于接收编码视频码流，其中，所述编码视频码流包括当前图像；耦合到所述接收器的存储器，其中，所述存储器存储指令；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述解码设备执行以下操作：推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；确定所述当前图像为清理随机接入(clean random access，CRA)图像，其中，所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra randomaccess point，IRAP)图像之前的图像；基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。

该解码设备提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像，所述CRA图像是采用帧内预测进行解码的，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行解码的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述解码设备还包括显示器，用于基于已解码的所述CRA图像显示图像。

第四方面涉及一种编码设备。所述编码设备包括：包括指令的存储器；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：在当前图像包括清理随机接入(clean random access，CRA)图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述CRA图像编码到视频码流中；耦合到所述处理器的发送器，其中，所述发送器用于向视频解码器发送所述视频码流。

该编码设备提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前，所述CRA图像是采用帧内预测进行编码的，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行编码的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，在所述发送器向所述视频解码器发送所述码流之前，所述存储器存储所述视频码流。

第五方面涉及一种由视频解码器实现的解码方法。所述方法包括：所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像；所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random accesspoint，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

可选地，根据上述任一方面，在该方面的另一种实现方式中，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。

第六方面涉及一种由视频编码器实现的编码方法。所述方法包括：在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；所述视频编码器存储所述视频码流，以向视频解码器发送。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

第七方面涉及一种解码设备。所述解码设备包括：接收器，用于接收编码视频码流，其中，所述编码视频码流包括当前图像；耦合到所述接收器的存储器，其中，所述存储器存储指令；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述解码设备执行以下操作：推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intrarandom access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

第八方面涉及一种编码设备。所述编码设备包括：包括指令的存储器；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；耦合到所述处理器的发送器，其中，所述发送器用于向视频解码器发送所述视频码流。

第九方面涉及一种由视频解码器实现的解码方法。所述方法包括：所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像；所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random accesspoint，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

该解码方法提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

第十方面涉及一种由视频编码器实现的编码方法。所述方法包括：在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；所述视频编码器存储所述视频码流，以向视频解码器发送。

该编码方法提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

第十一方面涉及一种解码设备。所述解码设备包括：接收器，用于接收编码视频码流，其中，所述编码视频码流包括当前图像；耦合到所述接收器的存储器，其中，所述存储器存储指令；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述解码设备执行以下操作：推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intrarandom access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

第十二方面涉及一种编码设备。所述编码设备包括：包括指令的存储器；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；耦合到所述处理器的发送器，其中，所述发送器用于向视频解码器发送所述视频码流。

第十三方面涉及一种解码方法。所述方法包括：视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像；所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；所述视频解码器确定所述当前图像为可解码随机接入前置(random access decodable leading，RADL)图像，其中，所述RADL图像表示所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(random access skipped leading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像；所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述RADL图像的每个条带进行解码。

第十四方面涉及一种编码方法。所述方法包括：在当前图像为可解码随机接入前置(random access decodable leading，RADL)图像时，视频编码器推导第一参考图像列表和第二参考图像列表，其中，所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(random access skipped leading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像；所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述RADL图像编码到视频码流中；所述视频编码器存储所述视频码流，以向视频解码器发送。

第十五方面涉及一种解码设备。所述解码设备包括：接收器，用于接收编码视频码流，其中，所述编码视频码流包括当前图像；耦合到所述接收器的存储器，其中，所述存储器存储指令；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述解码设备执行以下操作：推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；确定所述当前图像为可解码随机接入前置(random access decodable leading，RADL)图像，其中，所述RADL图像表示所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(random access skipped leading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像；基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述RADL图像的每个条带进行解码。

第十六方面涉及一种编码设备。所述编码设备包括：包括指令的存储器；耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：在当前图像为可解码随机接入前置(random access decodable leading，RADL)图像时，推导第一参考图像列表和第二参考图像列表，其中，所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(random access skippedleading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像；将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述RADL图像编码到视频码流中；耦合到所述处理器的发送器，其中，所述发送器用于向视频解码器发送所述视频码流。

第十七方面涉及一种译码装置。所述译码装置包括：接收器，用于接收图像进行编码或接收码流进行解码；耦合到所述接收器的发送器，所述发送器用于将所述码流发送到解码器或将解码图像发送到显示器；与所述接收器或所述发送器中的至少一个耦合的存储器，所述存储器用于存储指令；耦合到所述存储器的处理器，所述处理器用于执行存储在所述存储器中的所述指令，以执行本文公开的任一种方法。

该译码装置提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

第十八方面涉及一种系统。所述系统包括：编码器；与所述编码器通信的解码器，其中，所述编码器或所述解码器包括本文公开的所述解码设备、所述编码设备或所述译码装置。

该系统提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

第十九方面涉及一种译码模块。所述译码模块包括：接收模块，用于接收图像进行编码或接收码流进行解码；耦合到所述接收模块的发送模块，所述发送模块用于将所述码流发送到解码模块或将解码图像发送到显示模块；与所述接收模块或所述发送模块中的至少一个耦合的存储模块，所述存储模块用于存储指令；耦合到所述存储模块的处理模块，所述处理模块用于执行存储在所述存储模块中的所述指令，以执行本文公开的任一种方法。

该译码模块提供了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

为了清楚起见，任一上述实施例可以与上述其它任何一个或多个实施例组合，以创建在本发明范围内的新实施例。

根据以下结合附图和权利要求书的详细描述，将会更清楚地理解这些和其它特征。

附图说明

为了更全面地理解本发明，现在参考以下结合附图和具体实施方式进行的简要描述，其中，相似的附图标记表示相似的部件。

图1是对视频信号进行译码的示例性方法的流程图；

图2是用于视频译码的示例性编码和解码(编解码)系统的示意图；

图3是示例性视频编码器的示意图；

图4是示例性视频解码器的示意图；

图5是用于描述按解码顺序和呈现顺序帧内随机接入点(intra random accesspoint，IRAP)图像相对于前置图像和后置图像的关系的编码视频序列；

图6示出了用于实现逐步解码刷新(gradual decoding refresh，GDR)技术的视频码流；

图7是当使用编码器限制来支持GDR时不希望进行的运动搜索的示意图；

图8示出了用于实现清理随机接入(clean random access，CRA)技术的视频码流；

图9是单向帧间预测示例的示意图；

图10是双向帧间预测示例的示意图；

图11是示例性参考图像列表结构的示意图；

图12A至图12C是共同说明交错视频译码示例的示意图；

图13是采用交错视频译码和前置图像的示例性编码视频序列(coded videosequence，CVS)的示意图；

图14示出了图像的分割技术；

图15是解码方法的实施例；

图16是编码方法的实施例；

图17是解码方法的实施例；

图18是编码方法的实施例；

图19是解码方法的实施例；

图20是编码方法的实施例；

图21是解码方法的实施例；

图22是编码方法的实施例；

图23是示例性视频译码设备的示意图；

图24是译码模块的实施例的示意图。

具体实施方式

首先应当理解，尽管下文提供一个或多个实施例的说明性实现方式，但所公开的系统和/或方法可以使用任意数量的技术来实施，无论这些技术是当前已知的还是现有的。本发明决不应限于下文所说明的说明性实现方式、附图和技术，包括本文所说明并描述的示例性设计和实现方式，而是可以在所附权利要求书的范围以及其等效物的完整范围内修改。

以下术语的定义如下所示，除非在本文相反的上下文中使用。具体地，以下定义旨在更加清晰地描述本发明。但是，术语在不同的上下文中可能会有不同的描述。因此，以下定义应当视为补充信息，而不应当视为对此处为这些术语提供的描述的任何其它定义进行限制。

码流是包括视频数据的一系列比特，这些视频数据会进行压缩以在编码器和解码器之间传输。编码器是一种用于通过编码过程将视频数据压缩为码流的设备。解码器是一种用于通过解码过程从码流中重建视频数据以进行显示的设备。图像是创建其帧或场的亮度样本阵列和/或色度样本阵列。为了阐述清楚，正在编码或解码的图像可以称为当前图像。参考图像是包括参考样本的图像，这些参考样本可以在根据帧间预测和/或层间预测通过参考方式对其它图像进行译码时使用。参考图像列表是用于帧间预测和/或层间预测的参考图像的列表。一些视频译码系统使用两个参考图像列表，这两个参考图像列表可以表示为参考图像列表1和参考图像列表0。参考图像列表结构是包含多个参考图像列表的可寻址语法结构。帧间预测是通过参考与当前图像不同的参考图像中的指示样本对该当前图像的样本进行译码的机制，其中，参考图像和当前图像在同一层。参考图像列表结构表项是参考图像列表结构中的可寻址位置，该可寻址位置表示与参考图像列表相关联的参考图像。条带头是经译码条带的一部分，包括与在条带中表示的分块内的所有视频数据相关的数据元素。序列参数集(sequence parameter set，SPS)是包含与图像序列相关的数据的参数集。接入单元(access unit，AU)是与同一显示时间(例如，同一图像顺序编号)相关联的一个或多个编码图像的集合，用于从解码图像缓冲区(decoded picture buffer，DPB)输出(例如，以向用户显示)。解码视频序列是已通过解码器重建的图像序列，以备向用户显示。

在用于双向帧间预测的两个参考图像列表中的每一个中，可用于当前图像的帧间预测的参考图像只能被列表起始处的多个表项参考。这些表项称为列表中的激活表项，而其它表项称为列表中的非激活表项。可以推导列表中的表项的总数量和激活表项的数量。由参考图像列表中的非激活表项参考的图像不可以由该参考图像列表中的其它表项或其它参考图像列表中的任一表项参考。

本文中使用以下缩略语：编码视频序列(Coded Video Sequence，CVS)、解码图像缓冲区(Decoded Picture Buffer，DPB)、即时解码刷新(Instantaneous DecodingRefresh，IDR)、帧内随机接入点(Intra Random Access Point，IRAP)、联合视频专家组(Joint Video Experts Team，JVET)、最低有效位(Least Significant Bit，LSB)、最高有效位(Most Significant Bit，MSB)、网络抽象层(Network Abstraction Layer，NAL)、图像顺序编号(Picture OrderCount，POC)、原始字节序列载荷(Raw Byte Sequence Payload，RBSP)、实时传输协议(Real-time Transport Protocol，RTP)、序列参数集(SequenceParameter Set，SPS)、通用视频编码(Versatile Video Coding，VVC)、工作草案(WorkingDraft，WD)以及波前并行处理(Wavefront Parallel Processing，WPP)。

图1是对视频信号进行译码的示例性操作方法100的流程图。具体地，视频信号是在编码器侧进行编码的。编码过程通过采用各种机制来压缩视频信号，以减小视频文件的大小。文件较小使得压缩视频文件可以发送给用户，同时降低相关的带宽开销。然后，解码器对压缩视频文件进行解码，以重建原始视频信号向终端用户进行显示。解码过程通常是编码过程的逆过程，以使解码器重建的视频信号可以与编码器侧的视频信号保持一致。

在步骤101中，将视频信号输入到编码器中。例如，视频信号可以是存储在存储器中的未压缩视频文件。又如，视频文件可以由摄像机等视频捕获设备捕获，并且进行编码以支持视频的直播流传输。视频文件可以同时包括音频分量和视频分量。视频分量包括一系列图像帧。这些图像帧按顺序观看时，给人以运动的视觉效果。这些帧包括以光表示的像素，在本文中称为亮度分量(或亮度样本)，还包括以颜色表示的像素，称为色度分量(或色度样本)。在一些示例中，这些帧还可以包括深度值，以支持通过三维方式观看。

在步骤103中，将视频分割成块。分割包括将每一帧中的像素细分成正方形块和/或矩形块进行压缩。例如，在高效视频编码(High Efficiency Video Coding，HEVC)(还称为H.265和MPEG-H第2部分)中，可以首先将帧划分成编码树单元(coding tree unit，CTU)，它们是预定义大小(例如，64个像素×64个像素)的块。这些CTU同时包括亮度样本和色度样本。编码树可以用于将CTU划分成块，然后，重复细分这些块，直到获得支持进一步编码的配置。例如，帧的亮度分量可以细分，直到各个块包括相对均匀的亮度值。此外，帧的色度分量可以细分，直到各个块包括相对均匀的色度值。因此，分割机制因视频帧的内容而异。

在步骤105中，采用各种压缩机制对在步骤103中分割得到的图像块进行压缩。例如，可以采用帧间预测和/或帧内预测。帧间预测是为了利用一般场景中的对象往往出现在连续帧中这一事实而设计的。这样一来，描述参考帧中的对象的块不需要在相邻帧中重复描述。具体地，一个对象(例如一张桌子)可以在多个帧中保持在固定位置上。因此，该桌子被描述一次，而且相邻帧可以重新参考该参考帧。模式匹配机制可以用于在多个帧上匹配对象。此外，由于对象移动或相机移动等原因，移动对象可以跨多个帧表示。在一个具体示例中，视频可以在多个帧上显示跨屏幕移动的汽车。运动矢量可以用于描述这种移动。运动矢量是一个二维矢量，提供对象在一个帧中的坐标到该对象在参考帧中的坐标的偏移。因此，帧间预测可以将当前帧中的图像块编码为一组运动矢量，表示当前帧中的图像块与参考帧中的对应块的偏移。

帧内预测对公共帧中的块进行编码。帧内预测利用亮度分量和色度分量往往聚集在一个帧中这一事实。例如，一棵树某个部分的一片绿色往往与类似的几片绿色相邻。帧内预测采用多种方向性预测模式(例如，HEVC中有33种)、平面模式和直流(direct current，DC)模式。这些方向性模式表示当前块中的样本与对应方向上的相邻块中的样本相似/相同。平面模式表示一行/列(例如，平面)中的一系列块可以根据该行的边缘上的相邻块进行插值。平面模式实际上通过采用变化值的相对恒定的斜率表示光/颜色跨行/列的平稳过渡。DC模式用于边界平滑，并表示块与所有相邻块中的样本的平均值相似/相同，这些相邻块与方向性预测模式的角度方向相关联。相应地，帧内预测块可以将图像块表示为各种关系预测模式值而不是表示为实际值。此外，帧间预测块可以将图像块表示为运动矢量值而不是表示为实际值。在任一种情况下，预测块在一些情况下可能都无法准确表示图像块。所有差值都存储在残差块中。可以对残差块应用变换以进一步压缩文件。

在步骤107中，可以应用各种滤波技术。在HEVC中，滤波器是根据环内滤波方案应用的。上文描述的基于块的预测可能会在解码器侧产生块状图像。此外，基于块的预测方案可以对块进行编码，然后重建经编码块，以便后续用作参考块。环内滤波方案迭代地将噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和样本自适应偏移(sample adaptiveoffset，SAO)滤波器应用于块/帧。这些滤波器减少了块伪影，这样可以准确地重建经编码文件。此外，这些滤波器减少了重建参考块中的伪影，这样伪影不太可能在根据重建参考块编码的后续块中产生其它伪影。

一旦视频信号完成分割、压缩和滤波，则在步骤109中，将所得数据编码到码流中。码流包括上文描述的数据以及支持在解码器侧进行适当的视频信号重建所需要的任何指示数据。例如，这些数据可以包括分割数据、预测数据、残差块和提供译码指令给解码器的各种标志。码流可以存储在存储器中，以便根据请求向解码器发送。码流还可以广播和/或组播到多个解码器。创建码流是一个迭代过程。相应地，步骤101、步骤103、步骤105、步骤107和步骤109可以在多个帧和块中连续和/或同时执行。图1所示的顺序是为了清楚和便于描述而呈现的，并非旨在将视频译码过程限制于特定顺序。

在步骤111中，解码器接收码流并开始解码过程。具体地，解码器采用熵解码方案将码流转换为对应的语法数据和视频数据。在步骤111中，解码器采用码流中的语法数据来确定帧的分割部分。分割应该与步骤103中的块分割的结果匹配。下面描述在步骤111中采用的熵编码/解码。编码器在压缩过程中做出许多选择，例如，根据一个或多个输入图像中的值的空间放置从若干个可能选择中选择块分割方案。指示确切的选择可能会采用大量的位元(bin)。本文所使用的“位元”是一个作为变量的二进制值(例如，可能因内容而异的比特值)。熵编码使得编码器丢弃任何明显不适合特定情况的选项，从而留下一组可用选项。然后，为每个可用选项分配一个码字。码字的长度取决于可用选项的数量(例如，一个二元符号对应两个选项，两个二元符号对应三到四个选项，以此类推)。然后，编码器对所选选项的码字进行编码。这种方案减小了码字的大小，这是因为码字与预期的一样大，从而唯一地指示从可用选项的小子集中进行选择，而不是唯一地指示从所有可能选项的可能大集合中进行选择。然后，解码器通过以与编码器类似的方式确定这一组可用选项对这一选择进行解码。通过确定这一组可用选项，解码器可以读取码字并确定编码器做出的选择。

在步骤113中，解码器执行块解码。具体地，解码器采用逆变换，以生成残差块。然后，解码器采用残差块和对应的预测块，以根据分割来重建图像块。预测块可以包括编码器在步骤105中生成的帧内预测块和帧间预测块。接着，根据在步骤111中确定的分割数据将重建图像块放置在重建视频信号的帧中。还可以通过上文描述的熵编码在码流中指示用于步骤113的语法。

在步骤115中，以类似于步骤107中编码器侧的方式对重建视频信号的帧执行滤波。例如，噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和SAO滤波器可以应用于帧，以去除块伪影。一旦对帧进行了滤波，则在步骤117中，可以将视频信号输出到显示器，以供终端用户观看。

图2为用于视频译码的示例性编码和解码(编解码)系统200的示意图。具体地，编解码系统200提供功能来支持操作方法100的实现。编解码系统200广义地用于描述编码器和解码器侧都使用的组件。编解码系统200接收视频信号并对视频信号进行分割，如参照操作方法100中的步骤101和步骤103所述，得到分割后的视频信号201。然后，编解码系统200在充当编码器时将分割后的视频信号201压缩到经编码码流中，如参照方法100中的步骤105、步骤107和步骤109所述。编解码系统200在充当解码器时从码流中生成输出视频信号，如参照操作方法100中的步骤111、步骤113、步骤115和步骤117所述。编解码系统200包括通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、帧内预测组件217、运动补偿组件219、运动估计组件221、缩放和逆变换组件229、滤波器控制分析组件227、环内滤波器组件225、解码图像缓冲区组件223以及标头格式和上下文自适应二进制算术编码(context adaptive binary arithmetic coding，CABAC)组件231。这些组件如图所示耦合。在图2中，黑线表示待编码/解码数据的移动，而虚线表示控制其它组件操作的控制数据的移动。编解码系统200中的组件都可以存在于编码器中。解码器可以包括编解码系统200中的组件的子集。例如，解码器可以包括帧内预测组件217、运动补偿组件219、缩放和逆变换组件229、环内滤波器组件225以及解码图像缓冲区组件223。下面对这些组件进行描述。

分割后的视频信号201是一个捕获到的已经通过编码树分割成像素块的视频序列。编码树采用各种划分模式将像素块细分成较小的像素块。然后，这些块可以进一步细分成更小的块。这些块可以称为编码树上的节点。较大的父节点划分成较小的子节点。节点进行细分的次数称为节点/编码树的深度。在一些情况下，划分得到的块可以包括在编码单元(coding unit，CU)中。例如，CU可以是CTU的子部分，包括亮度块、一个或多个红色差色度(Cr)块和一个或多个蓝色差色度(Cb)块以及CU的对应语法指令。划分模式可以包括二叉树(binary tree，BT)、三叉树(triple tree，TT)和四叉树(quadtree，QT)，用于根据所采用的划分模式将节点分别分割成不同形状的两个、三个或四个子节点。将分割后的视频信号201转发给通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、滤波器控制分析组件227以及运动估计组件221进行压缩。

通用译码器控制组件211用于根据应用约束条件做出与将视频序列中的图像编码到码流中相关的决策。例如，通用译码器控制组件211管理码率/码流大小相对于重建质量的优化。可以根据存储空间/带宽可用性和图像分辨率请求做出这些决策。通用译码器控制组件211还根据传输速度管理缓冲区利用率，以缓解缓存欠载和超载问题。为了解决这些问题，通用译码器控制组件211管理由其它组件进行的分割、预测和滤波。例如，通用译码器控制组件211可以动态提高压缩复杂度以提高分辨率和增加带宽利用率，或者降低压缩复杂度以降低分辨率和带宽利用率。因此，通用译码器控制组件211控制编解码系统200中的其它组件来平衡视频信号重建质量与码率问题。通用译码器控制组件211生成控制数据，这些控制数据用于控制其它组件的操作。还将控制数据转发给标头格式和CABAC组件231，以编码到码流中，从而指示解码器进行解码时使用的参数。

还将分割后的视频信号201发送给运动估计组件221和运动补偿组件219进行帧间预测。可以将分割后的视频信号201的帧或条带划分成多个视频块。运动估计组件221和运动补偿组件219相对于一个或多个参考帧中的一个或多个块对所接收到的视频块进行帧间预测译码，以提供时间预测。编解码系统200可以执行多个译码回合，以便为每个视频数据块选择合适的译码模式，等等。

运动估计组件221和运动补偿组件219可以高度集成。但出于概念目的，将分别说明运动估计组件221和运动补偿组件219。由运动估计组件221执行的运动估计是生成运动矢量的过程，其中，这些运动矢量用于估计视频块的运动。例如，运动矢量可以表示经译码对象相对于预测块的位移。预测块是被发现在像素差方面与待译码块高度匹配的块。预测块还可以称为参考块。这种像素差可以通过绝对差异和(sum ofabsolute difference，SAD)、平方差异和(sum of square difference，SSD)或其它差异度量来确定。HEVC采用若干个经译码对象，包括CTU、编码树块(coding tree block，CTB)和CU。例如，可以将CTU划分成多个CTB，然后可以将CTB划分成CB，以包括在CU中。可以将CU编码为包括预测数据的预测单元(prediction unit，PU)和/或包括CU的变换残差数据的变换单元(transform unit，TU)。运动估计组件221使用率失真分析作为率失真优化过程的一部分来生成运动矢量、PU和TU。例如，运动估计组件221可以确定当前块/帧的多个参考块、多个运动矢量等，并且可以选择具有最佳率失真特性的参考块、运动矢量等。最佳率失真特性平衡了视频重建的质量(例如，压缩造成的数据丢失量)和译码效率(例如，最终编码的大小)。

在一些示例中，编解码系统200可以计算存储在解码图像缓冲区组件223中的参考图像的子整数像素位置的值。例如，视频编解码系统200可以对参考图像的四分之一像素位置、八分之一像素位置或其它分数像素位置的值进行插值。因此，运动估计组件221可以相对于整像素位置和分数像素位置执行运动搜索，并输出具有分数像素精度的运动矢量。运动估计组件221通过将PU的位置与参考图像的预测块的位置进行比较，计算经帧间译码条带中的视频块的PU的运动矢量。运动估计组件221将计算得到的运动矢量作为运动数据输出到标头格式和CABAC组件231进行编码，并作为运动数据输出到运动补偿组件219。

运动补偿组件219执行的运动补偿可以涉及根据运动估计组件221所确定的运动矢量获取或生成预测块。同样，在一些示例中，运动估计组件221和运动补偿组件219可以在功能上集成。在接收到当前视频块的PU的运动矢量时，运动补偿组件219可以定位运动矢量指向的预测块。然后，从正在译码的当前视频块的像素值中减去预测块的像素值，得到像素差值，从而形成残差视频块。一般而言，运动估计组件221相对于亮度分量执行运动估计，而运动补偿组件219将根据亮度分量计算得到的运动矢量用于色度分量和亮度分量。将预测块和残差块转发给变换缩放和量化组件213。

还将分割后的视频信号201发送给帧内估计组件215和帧内预测组件217。与运动估计组件221和运动补偿组件219一样，帧内估计组件215和帧内预测组件217可以高度集成。但出于概念目的，将分别说明帧内估计组件215和帧内预测组件217。帧内估计组件215和帧内预测组件217相对于当前帧中的各块对当前块进行帧内预测，以替代如上所述的由运动估计组件221和运动补偿组件219在各帧之间执行的帧间预测。具体地，帧内估计组件215确定帧内预测模式，用于对当前块进行编码。在一些示例中，帧内估计组件215从多个测试的帧内预测模式中选择合适的帧内预测模式来对当前块进行编码。然后，将选定的帧内预测模式转发给标头格式和CABAC组件231进行编码。

例如，帧内估计组件215对各种测试的帧内预测模式进行率失真分析来计算率失真值，并在测试的模式中选择具有最佳率失真特性的帧内预测模式。率失真分析通常确定经编码块与经编码以产生经编码块的原始未编码块之间的失真(或误差)量，以及确定用于产生经编码块的码率(例如，比特数)。帧内估计组件215根据各种经编码块的失真和速率计算比率，以确定表现出块的最佳率失真值的帧内预测模式。另外，帧内估计组件215可以用于根据率失真优化(rate-distortion optimization，RDO)，使用深度建模模式(depthmodeling mode，DMM)对深度图像的深度块进行译码。

帧内预测组件217在编码器上实现时，可以根据由帧内估计组件215确定的选定帧内预测模式从预测块中生成残差块，或者在解码器上实现时，可以从码流中读取残差块。残差块包括预测块与原始块之间的差值，表示为矩阵。然后，将残差块转发给变换缩放和量化组件213。帧内估计组件215和帧内预测组件217可以对亮度分量和色度分量都进行操作。

变换缩放和量化组件213用于进一步压缩残差块。变换缩放和量化组件213将离散余弦变换(discrete cosine transform，DCT)、离散正弦变换(discrete sine transform，DST)等变换或者概念上类似的变换应用于残差块，从而产生包括残差变换系数值的视频块。还可以使用小波变换、整数变换、子频带变换或其它类型的变换。变换可以将残差信息从像素值域转换到变换域，例如频域。变换缩放和量化组件213还用于根据频率等对变换残差信息进行缩放。这种缩放涉及将缩放因子应用于残差信息，以便在不同的粒度下量化不同的频率信息，这可能会影响重建视频的最终视觉质量。变换缩放和量化组件213还用于量化变换系数以进一步降低码率。量化过程可以减小与部分或全部系数相关的位深度。量化程度可以通过调整量化参数来修改。在一些示例中，变换缩放和量化组件213随后可以对包括量化变换系数的矩阵进行扫描。将量化变换系数转发给标头格式和CABAC组件231，以编码到码流中。

缩放和逆变换组件229进行与变换缩放和量化组件213相反的操作以支持运动估计。缩放和逆变换组件229应用逆缩放、逆变换和/或反量化以重建像素域中的残差块。例如，残差块后续用作参考块。该参考块可以成为另一当前块的预测块。运动估计组件221和/或运动补偿组件219可以通过将残差块添加回对应的预测块来计算参考块，以用于后续块/帧的运动估计。将滤波器应用于重建参考块，以减少在缩放、量化和变换期间产生的伪影。当预测后续块时，这些伪影可能会使预测不准确(并产生额外的伪影)。

滤波器控制分析组件227和环内滤波器组件225将滤波器应用于残差块和/或重建图像块。例如，可以将来自缩放和逆变换组件229的变换残差块与来自帧内预测组件217和/或运动补偿组件219的对应预测块组合以重建原始图像块。然后，可以将滤波器应用于重建图像块。在一些示例中，滤波器还可以应用于残差块。如同图2中的其它组件，滤波器控制分析组件227和环内滤波器组件225高度集成，可以一起实现。但出于概念目的，将分别描述滤波器控制分析组件227和环内滤波器组件225。将应用于重建参考块的滤波器应用于特定空间区域，这些滤波器包括多个参数以调整使用这些滤波器的方式。滤波器控制分析组件227对重建参考块进行分析，以确定需要使用这些滤波器的位置并设置对应的参数。将这些数据作为滤波器控制数据转发给标头格式和CABAC组件231进行编码。环内滤波器组件225根据滤波器控制数据应用这些滤波器。这些滤波器可以包括去块效应滤波器、噪声抑制滤波器、SAO滤波器和自适应环路滤波器。这些滤波器可以根据示例应用于空域/像素域(例如，针对重建像素块)或频域中。

当作为编码器操作时，将经滤波的重建图像块、残差块和/或预测块存储在解码图像缓冲区组件223中，以供后续用于运动估计，如上所述。当作为解码器操作时，解码图像缓冲区组件223存储经重建和经滤波的块并将其作为输出视频信号的一部分转发给显示器。解码图像缓冲区组件223可以是任何能够存储预测块、残差块和/或重建图像块的存储设备。

标头格式和CABAC组件231从编解码系统200中的各种组件接收数据，并将这些数据编码到经编码码流中，以发送给解码器。具体地，标头格式和CABAC组件231生成各种标头以对控制数据(例如，通用控制数据和滤波器控制数据)进行编码。此外，将预测数据(包括帧内预测数据和运动数据)以及以量化变换系数数据为形式的残差数据都编码到码流中。最终的码流包括解码器重建原始分割后的视频信号201所需要的所有信息。这些信息还可以包括帧内预测模式索引表(还称为码字映射表)、各种块的编码上下文的定义、最可能的帧内预测模式的指示、分割信息的指示等。这些数据可以采用熵编码进行编码。例如，这些信息可以采用上下文自适应可变长度编码(context adaptive variable length coding，CAVLC)、CABAC、基于语法的上下文自适应二进制算术编码(syntax-based context-adaptive binary arithmetic coding，SBAC)、概率区间分割熵(probability intervalpartitioning entropy，PIPE)编码或其它熵编码技术来编码。在熵编码之后，可以将经编码码流发送给另一设备(例如，视频解码器)或存档以供后续发送或检索。

图3为示例性视频编码器300的框图。视频编码器300可以用于实现编解码系统200的编码功能和/或执行操作方法100中的步骤101、步骤103、步骤105、步骤107和/或步骤109。编码器300对输入视频信号进行分割，得到分割后的视频信号301，其基本上类似于分割后的视频信号201。然后，通过编码器300中的组件压缩分割后的视频信号301并将其编码到码流中。

具体地，将分割后的视频信号301转发给帧内预测组件317进行帧内预测。帧内预测组件317可以基本上类似于帧内估计组件215和帧内预测组件217。还将分割后的视频信号301转发给运动补偿组件321，以根据解码图像缓冲区组件323中的参考块进行帧间预测。运动补偿组件321可以基本上类似于运动估计组件221和运动补偿组件219。将来自帧内预测组件317和运动补偿组件321的预测块和残差块转发给变换和量化组件313进行残差块的变换和量化。变换和量化组件313可以基本上类似于变换缩放和量化组件213。将变换量化残差块和对应的预测块(连同相关的控制数据)转发给熵编码组件331，以编码到码流中。熵编码组件331可以基本上类似于标头格式和CABAC组件231。

还将变换量化残差块和/或对应的预测块从变换和量化组件313转发给逆变换和反量化组件329，以重建为参考块供运动补偿组件321使用。逆变换和反量化组件329可以基本上类似于缩放和逆变换组件229。根据示例，还将环内滤波器组件325中的环内滤波器应用于残差块和/或重建参考块。环内滤波器组件325可以基本上类似于滤波器控制分析组件227和环内滤波器组件225。环内滤波器组件325可以包括多个滤波器，如参照环内滤波器组件225所述。然后，将经滤波的块存储在解码图像缓冲区组件323中，以作为参考块供运动补偿组件321使用。解码图像缓冲区组件323可以基本上类似于解码图像缓冲区组件223。

图4为示例性视频解码器400的框图。视频解码器400可以用于实现编解码系统200的解码功能和/或执行操作方法100中的步骤111、步骤113、步骤115和/或步骤117。解码器400从编码器300等接收码流，并根据码流生成重建输出视频信号，以向终端用户显示。

码流由熵解码组件433接收。熵解码组件433用于执行熵解码方案，例如CAVLC、CABAC、SBAC、PIPE解码或其它熵解码技术。例如，熵解码组件433可以使用标头信息来提供上下文以解析在码流中编码为码字的附加数据。经解码信息包括对视频信号进行解码所需的任何信息，例如，通用控制数据、滤波器控制数据、分割信息、运动数据、预测数据和残差块中的量化变换系数。将量化变换系数转发给逆变换和反量化组件429，以重建为残差块。逆变换和反量化组件429可以类似于逆变换和反量化组件329。

将重建残差块和/或预测块转发给帧内预测组件417，以根据帧内预测操作重建为图像块。帧内预测组件417可以类似于帧内估计组件215和帧内预测组件217。具体地，帧内预测组件417使用预测模式来定位帧中的参考块，并将残差块应用到上述结果中以重建帧内预测图像块。将重建帧内预测图像块和/或残差块以及对应的帧间预测数据通过环内滤波器组件425转发给解码图像缓冲区组件423。解码图像缓冲区组件423和环内滤波器组件425可以基本上分别类似于解码图像缓冲区组件223和环内滤波器组件225。环内滤波器组件425对重建图像块、残差块和/或预测块进行滤波。这些信息存储在解码图像缓冲区组件423中。将来自解码图像缓冲区组件423的重建图像块转发给运动补偿组件421，以进行帧间预测。运动补偿组件421可以基本上类似于运动估计组件221和/或运动补偿组件219。具体地，运动补偿组件421使用参考块的运动矢量来生成预测块，并将残差块应用于上述结果中以重建图像块。还可以通过环内滤波器组件425将所得到的重建块转发给解码图像缓冲区组件423。解码图像缓冲区组件423继续存储其它重建图像块。这些重建图像块可以通过分割信息重建为帧。这些帧还可以放置在一个序列中。该序列作为重建输出视频信号输出到显示器。

考虑到上述情况，视频压缩技术通过执行空间(帧内)预测和/或时间(帧间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码，视频条带(即视频图像或视频图像中的一部分)可以分割成视频块，这些视频块还可以称为树块、编码树块(codingtree block，CTB)、编码树单元(coding tree unit，CTU)、编码单元(coding unit，CU)和/或编码节点。图像中的经帧内译码(I)条带中的视频块是相对于同一图像中的相邻块中的参考样本使用空间预测进行编码的。图像中的经帧间译码(P或B)条带中的视频块可以使用相对于同一图像中的相邻块中的参考样本的空间预测，或者使用相对于其它参考图像中的参考样本的时间预测。图像可以称为帧，参考图像可以称为参考帧。

空间预测或时间预测为待译码块产生预测块。残差数据表示待译码原始块与预测块之间的像素差。经帧间译码块是根据运动矢量和残差数据进行编码的，其中，运动矢量指向形成预测块的参考样本组成的块，残差数据表示经译码块与预测块之间的差值。经帧内译码块是根据帧内译码模式和残差数据进行编码的。为了进一步压缩，所述残差数据可以从像素域变换到变换域，从而产生可以接着进行量化的残差变换系数。量化变换系数最初以二维阵列排列，并且可以按顺序扫描，以产生变换系数的一维矢量。熵编码可以用于实现进一步压缩。

图像和视频压缩发展迅速，由此产生了各种编码标准。这些视频编码标准包括ITU-TH.261、国际标准化组织/国际电工委员会(International Organization forStandardization/International Electrotechnical Commission，ISO/IEC)MPEG-1第2部分、ITU-T H.262或ISO/IEC MPEG-2第2部分、ITU-T H.263、ISO/IEC MPEG-4第2部分、高级视频编码(Advanced Video Coding，AVC)(也称为ITU-T H.264或ISO/IEC MPEG-4第10部分)以及高效视频编码(High Efficiency Video Coding，HEVC)(也称为ITU-T H.265或MPEG-H第2部分)。AVC包括可分级的视频编码(Scalable Video Coding，SVC)、多视图视频编码(Multiview Video Coding，MVC)和多视图视频编码加深度(Multiview Video Codingplus Depth，MVC+D)、3D-AVC(3D-AVC)等扩展版本。HEVC包括可分级的HEVC(ScalableHEVC，SHVC)、多视图HEVC(Multiview HEVC，MV-HEVC)、3D-HEVC(3D-HEVC)等扩展版本。

还有一个新的视频编码标准，名为通用视频编码(Versatile Video Coding，VVC)，正在由ITU-T和ISO/IEC的联合视频专家组(joint video experts team，JVET)开发。虽然VVC标准有若干工作草案，但本文特别参考VVC的一个工作草案(Working Draft，WD)，即2019年3月27日的第13次JVET会议上，B.Bross、J.Chen以及S.Liu在JVET-N1001-v3中提出的“通用视频编码(草案5)”(VersatileVideo Coding(Draft 5)，VVC Draft 5)。

本文公开的技术是基于ITU-T和ISO/IEC的联合视频专家组(joint videoexperts team，JVET)正在开发的视频编码标准通用视频编码(Versatile Video Coding，VVC)描述的。然而，这些技术还适用于其它视频编解码规范。

针对AVC、HEVC和VVC讨论了视频译码中的参考图像管理。

在视频编解码规范中，需要标识图像以用于多种目的，包括用作帧间预测中的参考图像、用于解码图像缓冲区(decoded picture buffer，DPB)中的图像的输出、用于运动矢量的缩放、用于加权预测等。

在AVC和HEVC中，图像可以通过图像顺序编号(picture order count，POC)标识。

在AVC和HEVC中，DPB中的图像可以被标识为“用于短期参考”、“用于长期参考”或“不用于参考”。一旦一个图像被标识为“不用于参考”，该图像就不能再用于预测，而且当不再需要输出该图像时，该图像可以从DPB中删除。

AVC中存在两种参考图像：短期参考图像和长期参考图像。当一个参考图像不再需要用于预测参考时，该参考图像可以被标识为“不用于参考”。三种状态(短期参考、长期参考、不用于参考)之间的转换通过解码参考图像标识过程进行控制。存在两种可选的解码参考图像标识机制：隐式滑动窗口过程和显式内存管理控制操作(memory managementcontrol operation，MMCO)过程。在参考帧的数量等于给定的最大数量(SPS中的max_num_ref_frames)时，滑动窗口过程将短期参考图像标识为“不用于参考”。这些短期参考图像以先入先出的方式存储，使得最近解码的短期图像保存在DPB中。

显式MMCO过程可以包括多个MMCO命令。一个MMCO命令可以用于将一个或多个短期或长期参考图像标识为“不用于参考”，将所有图像标识为“不用于参考”，或将当前参考图像或现有的短期参考图像标识为长期参考图像并将长期图像索引分配给该长期参考图像。

在AVC中，参考图像标识操作以及从DPB中输出和去除图像的过程是在图像完成解码之后执行的。

HEVC引入了一种不同的参考图像管理方法，称为参考图像集(reference pictureset，RPS)。RPS概念与AVC中的MMCO/滑动窗口的最根本区别在于，为每个特定条带提供由当前图像或任何后续图像使用的参考图像的完整集合。因此，指示了必须保存在DPB中以供当前图像或后续图像使用的所有图像的完整集合。这与AVC方案不同，AVC方案只指示了DPB的相对变化。使用RPS概念，不需要解码顺序靠前的图像的信息来保持DPB中参考图像的正确状态。

为了充分发挥RPS的优点并提高抗误码能力，HEVC与AVC相比，改变了图像解码和DPB操作的顺序。在AVC中，图像标识和缓冲区操作(从DPB中输出和去除解码图像)通常都是在当前图像完成解码之后进行的。在HEVC中，首先从当前图像的条带头中解码出RPS，然后通常进行图像标识和缓冲区操作，最后对当前图像进行解码。

最新的VVC WD包括基于两个参考图像列表(参考图像列表0和参考图像列表1)的参考图像管理方法。通过这种方法，直接构建图像的参考图像列表，而不采用参考图像列表初始化过程和参考图像列表修改过程。此外，参考图像标识直接基于两个参考图像列表进行。

VVC中参考图像管理相关的语法和语义如下所述。

序列参数集RBSP如下所述。

图像参数集RBSP如下所述。

通用条带头语法如下所述。

参考图像列表语法如下所述。

序列参数集RBSP语义如下所述。

log2_max_pic_order_cnt_lsb_minus4表示在用于图像顺序编号的解码过程中使用的变量MaxPicOrderCntLsb的值，如下所示：

MaxPicOrderCntLsb＝2^{(log2_max_pic_order_cnt_lsb_minus4+4)} (7-7)

log2_max_pic_order_cnt_lsb_minus4的取值范围为0至12(包括端值)。

sps_max_dec_pic_buffering_minus1+1表示CVS所需的解码图像缓冲区的最大大小，以图像存储缓冲区为单位。sps_max_dec_pic_buffering_minus1的取值范围为0到MaxDpbSize-1(包括端值)，其中，MaxDpbSize与其它地方指定的值相同。

long_term_ref_pics_flag等于0表示不使用长期参考图像(long-termreference picture，LTRP)对CVS中的任何编码图像进行帧间预测。long_term_ref_pics_flag等于1表示可以使用LTRP对CVS中的一个或多个编码图像进行帧间预测。

sps_idr_rpl_present_flag等于1表示参考图像列表语法元素存在于IDR图像的条带头中。sps_idr_rpl_present_flag等于0表示参考图像列表语法元素不存在于IDR图像的条带头中。

rpl1_same_as_rpl0_flag等于1表示语法结构num_ref_Pic_lists_in_sps[1]和ref_pic_list_struct(1，rplsIdx)不存在，以下内容适用：

-推断num_ref_pic_lists_in_sps[1]的值等于num_ref_pic_lists_in_sps[0]的值。

-推断ref_pic_list_struct(1，rplsIdx)中每个语法元素的值等于ref_pic_list_struct(0，rplsIdx)中对应语法元素的值，其中，rplsIdx在0到num_ref_pic_lists_in_sps[0]-1的范围内。

num_ref_pic_lists_in_sps[i]表示SPS中包括的listIdx等于i的语法结构ref_pic_list_struct(listIdx，rplsIdx)的数量。num_ref_pic_lists_in_sps[i]的取值范围为0到64(包括端值)。

注3-对于listIdx的每个值(等于0或1)，解码器需要为总计num_ref_pic_lists_in_sps[i]+1个语法结构ref_pic_list_struct(listIdx，rplsIdx)分配内存，因为在当前图像的条带头中可以直接指示一个语法结构ref_pic_list_struct(listIdx，rplsIdx)。

图像参数集RBSP语义如下所述。

当i等于0时，num_ref_idx_default_active_minus1[i]+1表示num_ref_idx_active_override_flag等于0的P条带或B条带的变量NumRefIdxActive[0]的推断值；当i等于1时，num_ref_idx_default_active_minus1[i]+1表示num_ref_idx_active_override_flag等于0的B条带的NumRefIIdxActive[1]的推断值。num_ref_idx_default_active_minus1[i]的取值范围为0至14(包括端值)。

rpl1_idx_present_flag等于0表示ref_pic_list_sps_flag[1]和ref_pic_list_idx[1]不存在于条带头中。rpl1_idx_present_flag等于1表示ref_pic_list_sps_flag[1]和ref_pic_list_idx[1]可以存在于条带头中。

通用条带头语义如下所述。

slice_pic_order_cnt_lsb表示当前图像的图像顺序编号对MaxPicOrderCntLsb取模的值。语法元素slice_pic_order_cnt_lsb的长度为(log2_max_pic_order_cnt_lsb_minus4+4)个比特。slice_pic_order_cnt_lsb的取值范围为0至MaxPicOrderCntLsb-1(包括端值)。

ref_pic_list_sps_flag[i]等于1表示当前条带的参考图像列表i是根据激活SPS中listIdx等于i的语法结构ref_pic_list_struct(listIdx，rplsIdx)中的一个推导的。ref_pic_list_sps_flag[i]等于0表示当前条带的参考图像列表i是根据直接包括在当前图像的条带头中的listIdx等于i的语法结构ref_pic_list_struct(listIdx，rplsIdx)推导的。当num_ref_pic_lists_in_sps[i]等于0时，ref_pic_list_sps_flag[i]的值被推断为0。当rpl1_idx_present_flag等于0时，ref_pic_list_sps_flag[1]的值被推断为与ref_pic_list_sps_flag[0]的值相等。

ref_pic_list_idx[i]表示用于推导当前图像的参考图像列表i的listIdx等于i的语法结构ref_pic_list_struct(listIdx，rplsIdx)在激活SPS中包括的listIdx等于i的语法结构ref_pic_list_struct(listIdx，rplsIdx)的列表中的索引。语法元素ref_pic_list_idx[i]通过Ceil(Log2(num_ref_pic_lists_in_sps[i]))个比特表示。当不存在时，ref_pic_list_idx[i]的值被推断为0。ref_pic_list_idx[i]的取值范围为0到num_ref_pic_lists_in_sps[i]-1(包括端值)。当ref_pic_list_sps_flag[i]等于1且num_ref_pic_lists_in_sps[i]等于1时，ref_pic_list_idx[i]的值被推断为0。当ref_pic_list_sps_flag[i]等于1且rpl1_idx_present_flag等于0时，ref_pic_list_idx[1]的值被推断为等于ref_pic_list_idx[0]的值。

变量RplsIdx[i]推导如下：

RplsIdx[i]＝ref_pic_list_sps_flag[i]？ref_pic_list_idx[i]：num_ref_pic_lists_in_sps[i] (7-40)

slice_poc_lsb_lt[i][j]表示第i个参考图像列表中第j个LTRP表项的图像顺序编号取模MaxPicOrderCntLsb的值。语法元素slice_poc_lsb_lt[i][j]的长度为(log2_max_pic_order_cnt_lsb_minus4+4)个比特。

变量PocLsbLt[i][j]推导如下：

PocLsbLt[i][j]＝ltrp_in_slice_header_flag[i][RplsIdx[i]]？ (7-41)

slice_poc_lsb_1t[i][j]：rpls_poc_lsb_lt[listIdx][RplsIdx[i]][j]

delta_poc_msb_present_flag[i][j]等于1表示delta_poc_msb_cycle_lt[i][j]存在。delta_poc_msb_present_flag[i][j]等于0表示delta_poc_msb_cycle_lt[i][j]不存在。

假设prevTid0Pic为按解码顺序TemporalId等于0且不是跳过随机接入前置(random access skipped leading，RASL)图像或可解码随机接入前置(random accessdecodable leading，RADL)图像的前一个图像。假设setOfPrevPocVals是一个由以下各项组成的集合：

-prevTid0Pic的PicOrderCntVal；

-prevTid0Pic的RefPicList[0]中的表项和RefPicList[1]中的表项所参考的每个图像的PicOrderCntVal；

-按解码顺序位于prevTid0Pic之后且位于当前图像之前的每个图像的PicOrderCntVal。

当setOfPrevPocVals中存在多个值取模MaxPicOrderCntLsb等于PocLsbLt[i][j]时，delta_poc_msb_present_flag[i][j]的值应等于1。

delta_poc_msb_cycle_lt[i][j]表示变量FullPocLt[i][j]的值，如下所示：

if(j＝＝0)

deltaMsbCycle[i][j]＝delta_poc_msb_cycle_lt[i][j]

else (7-42)

deltaMsbCycle[i][j]＝delta_poc_msb_cycle_lt[i][j]+deltaMsbCycle[i][j-1]

FullPocLt[i][RplsIdx[i]][j]＝PicOrderCntVal-deltaMsbCycle[i][j]*MaxPicOrderCntLsb-(PicOrderCntVal&(MaxPicOrderCntLsb—1))+PocLsbLt[i][j]

delta_poc_msb_cycle_lt[i][j]的取值范围为0至2⁽³² ^{-log2_max_pic_order_cnt_lsb_minus4-4)}(包括端值)。当不存在时，delta_poc_msb_cycle_lt[i][j]的值被推断为0。

num_ref_idx_active_override_flag等于1表示语法元素num_ref_idx_active_minus1[0]对于P条带和B条带是存在的且语法元素num_ref_idx_active_minus1[1]对于B条带是存在的。num_ref_idx_active_override_flag等于0表示不存在语法元素num_ref_idx_active_minus1[0]和num_ref_idx_active_minus1[1]。当不存在时，num_ref_idx_active_override_flag的值被推断为1。

num_ref_idx_active_minus1[i]用于推导变量NumRefIdxActive[i]，如公式7-43所示。num_ref_idx_active_minus1[i]的取值范围为0至14(包括端值)。

对于i等于0或1，在当前条带是B条带，num_ref_idx_active_override_flag等于1，且num_ref_idx_active_minus1[i]不存在时，num_ref_idx_active_minus1[i]被推断为0。

在当前条带为P条带，num_ref_idx_active_override_flag等于1，且num_ref_idx_active_minus1[0]不存在时，num_ref_idx_active_minus1[0]被推断为0。

变量NumRefIdxActive[i]推导如下：

NumRefIdxActive[i]-1的值表示参考图像列表i中的可以用于解码条带的最大参考索引。当NumRefIdxActive[i]的值等于0时，参考图像列表i中没有参考索引可以用于解码条带。

变量CurrPicIsOnlyRef表示当前经解码图像是当前条带的唯一参考图像，推导如下：

CurrPicIsOnlyRef＝sps_cpr_enabled_flag&&(slice_type＝＝P)&&(7-44)

(num_ref_idx_active_minus1[0]＝＝0)

提供了参考图像列表结构语义。

语法结构ref_pic_list_struct(listIdx，rplsIdx)可以存在于SPS或条带头中。该语法结构的具体含义取决于该语法结构是包括在条带头中还是包括在SPS中。

-如果语法结构ref_pic_list_struct(listIdx，rplsIdx)存在于条带头中，则该语法结构表示当前图像(包含条带的图像)的参考图像列表listIdx。

-否则(如果语法结构ref_pic_list_struct(listIdx，rplsIdx)存在于SPS中)，该语法结构表示参考图像列表listIdx的候选。本节剩余部分中规定的语义中的术语“当前图像”是指具有如下特征的每个图像：(1)具有一个或多个条带，其中，该一个或多个条带将等于索引的ref_pic_list_idx[listIdx]包含在语法结构ref_pic_list_struct(listIdx，rplsIdx)的列表中，该语法结构包括在该SPS中；(2)在将该SPS作为激活SPS的CVS中。

num_ref_entries[listIdx][rplsIdx]表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的表项的数量。num_ref_entries[listIdx][rplsIdx]的取值范围为0到sps_max_dec_pic_buffering minus1+14(包括端值)。

ltrp_in_slice_header_fllag[listIdx][rplsIdx]等于0表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的LTRP表项的POC LSB存在于语法结构ref_pic_list_struct(listIdx，rplsIdx)中。ltrp_in_slice_header_flag[listIdx][rplsIdx]等于1表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的LTRP表项的POC LSB不存在于语法结构ref_pic_list_struct(listIdx，rplsIdx)中。

st_ref_pic_flag[listIdx][rplsIdx][i]等于1表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项是安全实时传输协议(secure real-timetransport protocol，STRP)表项。st_ref_pic_flag[listIdx][rplsIdx][i]等于0表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项是LTRP表项。当不存在时，st_ref_pic_flag[listIdx][rplsIdx][i]的值被推断为1。

变量NumLtrpEntries[listIdx][rplsIdx]推导如下：

for(i＝0，NumLtrpEntries[listIdx][rplsIdx]＝0；i＜num_ref_entries[listIdx][rplsIdx]；i++)

if(！st_ref_pic_flag[listIdx][rplsIdx][i]) (7-86)

NumLtrpEntries[listIdx][rplsIdx]++

当第i个表项为语法结构ref_pic_list_struct( listIdx，rplsIdx)中的第一个STRP表项时，abs_delta_poc_st[listIdx][rplsIdx][i]表示当前图像和由第i个表项参考的图像的图像顺序编号值之间的绝对差值，或者，当第i个表项为语法结构ref_pic_list_struct(listIdx，rplsIdx)中的STRP表项但不是第一个STRP表项时，abs_delta_poc_st[listIdx][rplsIdx][i]表示由语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项和前一STRP表项参考的图像的图像顺序编号值之间的绝对差值。

abs_delta_poc_st[listIdx][rplsIdx][i]的取值范围为0到215-1(包括端值)。

strp_entry_sign_flag[listIdx][rplsIdx][i]等于1表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项的值大于或等于0。strp_entry_sign_flag[listIdx][rplsIdx]等于0表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项的值小于0。当不存在时，strp_entry_sign_flag[i][j]的值被推断为1。

列表DeltaPocSt[listIdx][rplsIdx]推导如下：

rpls_poc_lsb_lt[listIdx][rplsIdx][i]表示语法结构ref_pic_list_struct(listIdx，rplsIdx)中的第i个表项所参考的图像的图像顺序编号取模MaxPicOrderCntLsb的值。语法元素rpls_poc_lsb_lt[listIdx][rplsIdx][i]的长度为(log2_max_pic_order_cnt_lsb_minus4+4)比特。

讨论了现有方案中存在的问题。

为了确保参考图像列表仅包含允许的参考图像，需要规定码流一致性约束条件。对于HEVC，为参考图像集(reference picture set，RPS)中可能存在的参考图像的类型规定了以下约束条件。

-在当前图像是CRA图像时，RPS中不包括按输出顺序或解码顺序位于该解码顺序中的任何先前IRAP图像(若存在)之前的图像。

-在当前图像是后置图像时，在RefPicSetStCurrBefore，RefPicSetStCurrAfter或RefPicSetLtCurr中不存在通过8.3.3节中规定的用于生成不可用参考图像的解码过程生成的图像。

-在当前图像是后置图像时，RPS中不存在按输出顺序或解码顺序位于关联的IRAP图像之前的图像。

-在当前图像是RADL图像时，在RefPicSetStCurrBefore，RefPicSetStCurrAfter或RefPicSetLtCurr中不包括以下任一图像：

-RASL图像

-通过8.3.3节中规定的用于生成不可用参考图像的解码过程生成的图像

-按解码顺序位于关联的IRAP图像之前的图像

对于参考图像列表(reference picture list，RPL)方法，发现了以下问题。

1.通常，没有规定与参考图像列表中可能存在的参考图像的类型有关的码流一致性约束条件。

2.在采用交错译码时，IRAP图像的两个场可能并未同时标记为IRAP图像，而是只有第一场标记为IRAP图像，另一场标记为后置图像。因此，这意味着上面类似的约束条件“在当前图像是后置图像时，RPS中不存在按输出顺序或解码顺序位于关联的IRAP图像之前的图像”不适用于这种情况。需要修改约束条件。

本文公开了一些技术，以在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时，限制参考图像列表包括参考特定图像的表项。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，视频译码中的编码器/解码器(又称为编解码器，codec)相对于现有的编解码器有所改进。实际上，当视频被发送、接收和/或观看时，改进的视频译码过程为用户提供了更好的用户体验。

图5是用于描述按解码顺序508和呈现顺序(又称为输出顺序)510帧内随机接入点(intra random access point，IRAP)图像502相对于前置图像504和后置图像506的关系的编码视频序列500。在一个实施例中，IRAP图像502称为清理随机接入(clean randomaccess，CRA)图像或伴随可解码随机接入前置(random access decodable leading，RADL)图像的即时解码刷新(instantaneous decoding refresh，IDR)图像。在HEVC中，IDR图像、CRA图像和断点连接接入(broken link access，BLA)图像都认为是IRAP图像502。对于VVC，在2018年10月的第12次JVET会议上，同意将IDR图像和CRA图像都认为是IRAP图像。在一个实施例中，断点连接接入(broken link access，BLA)图像和逐步解码刷新(gradualdecoding refresh，GDR)图像也可以认为是IRAP图像。编码视频序列的解码过程始终从IRAP图像开始。

CRA图像是IRAP图像，其每个视频编码层(video coding layer，VCL)网络抽象层(network abstraction layer，NAL)单元的nal_unit_type等于CRA_NUT。CRA图像在其解码过程中不参考除自身以外的任何图像进行帧间预测，并且可能是码流中按解码顺序的第一个图像，或者可能出现在码流中的稍后位置。CRA图像可以具有关联的RADL图像或跳过随机接入前置(random access skipped leading，RASL)图像。当CRA图像的NoOutputBeforeRecoveryFlag等于1时，解码器不会输出关联的RASL图像，原因在于这些RASL图像可能无法解码，因为它们可能包含对不存在于所述码流中的图像的参考。

如图5所示，前置图像504(例如，图像2和3)按解码顺序508位于IRAP图像502之后，但按呈现顺序510位于IRAP图像502之前。后置图像506按解码顺序508和呈现顺序510均位于IRAP图像502之后。虽然图5中描绘了两个前置图像504和一个后置图像506，但本领域技术人员将会理解，在实际应用中，按解码顺序508和呈现顺序510可以存在更多或更少的前置图像504和/或后置图像506。

图5中的前置图像504分为两种类型，即跳过随机接入前置(random accessskipped leading，RASL)图像和RADL图像。当解码从IRAP图像502(例如，图像1)开始时，RADL图像(例如，图像3)可以被正确解码；然而，RASL图像(例如，图像2)无法被正确解码。因此，RASL图像会被丢弃。根据RADL图像与RASL图像之间的区别，与IRAP图像502相关联的前置图像504的类型应标识为RADL或RASL，以便实现高效和正确的译码。在HEVC中，当存在RASL图像和RADL图像时，存在如下限制：对于与同一IRAP图像502相关联的RASL图像和RADL图像，RASL图像按呈现顺序510应位于RADL图像之前。

IRAP图像502提供了以下两个重要的功能/益处。首先，IRAP图像502的存在表示解码过程可以从该图像开始。该功能实现随机接入特征，其中，解码过程从码流中的该位置开始，而不必从码流的起始处开始，只要IRAP图像502存在于该位置即可。其次，IRAP图像502的存在会刷新解码过程，使得从IRAP图像502开始的经编码图像(不包括RASL图像)在不参考先前图像的情况下被编码。因此，码流中存在IRAP图像502可以防止在对IRAP图像502之前的经编码图像进行解码的期间将可能发生的任何错误传播到IRAP图像502以及按解码顺序508位于IRAP图像502之后的那些图像。

虽然IRAP图像502提供了重要的功能，但这些IRAP图像会降低压缩效率。IRAP图像502的存在导致码率激增。这种对压缩效率的降低有两个原因。首先，由于IRAP图像502是帧内预测图像，当与作为帧间预测图像的其它图像(例如，前置图像504、后置图像506)相比时，该图像将需要相对更多的比特来表示。其次，因为IRAP图像502的存在破坏了时间预测(这是因为解码器将刷新解码过程，其中，解码过程的动作之一是删除解码图像缓冲区(decoded picture buffer，DPB)中的先前参考图像)，所以IRAP图像502导致按解码顺序508位于IRAP图像502之后的图像的译码效率较低(即，需要更多的比特来表示)，这是因为这些图像具有较少的参考图像来进行帧间预测译码。

在被认为是IRAP图像502的图像类型中，HEVC中的IDR图像与其它图像类型相比具有不同的指示和推导。其中一些差异如下所述。

对于IDR图像的图像顺序编号(picture order count，POC)值的指示和推导，POC的最高有效位(most significant bit，MSB)部分不是从先前的关键图像推导出的，而是简单地设置为0。

对于进行参考图像管理所需的指示信息，IDR图像的条带头不包含需要进行指示以辅助参考图像管理的信息。对于其它图像类型(即CRA、后置、时间子层接入(temporalsub-layer access，TSA)等)，参考图像标记过程(即，确定解码图像缓冲区(decodedpicture buffer，DPB)中用于参考或不用于参考的参考图像的状态的过程)需要诸如下文中所描述的参考图像集(reference picture set，RPS)之类的信息或其它形式的类似信息(例如，参考图像列表)。但是，对于IDR图像，此类信息不需要进行指示(signal)，因为IDR图像的存在表示解码过程应该简单地将DPB中的所有参考图像标记为不用于参考。

在HEVC和VVC中，IRAP图像502和前置图像504的条带可以各自包含在单个网络抽象层(network abstraction layer，NAL)单元中。NAL单元集合可以称为接入单元。IRAP图像502和前置图像504被赋予不同的NAL单元类型，使得这些图像能够容易地被系统级应用识别。例如，视频拼接器需要理解经编码图像的类型，而不必理解经编码码流中语法元素的太多细节，特别是需要从非IRAP图像中识别IRAP图像502，并从后置图像506中识别前置图像504，包括确定RASL图像和RADL图像。后置图像506是与IRAP图像502相关联并且按呈现顺序510位于该IRAP图像502之后的那些图像。图像可以按解码顺序508位于特定IRAP图像502之后，并且按解码顺序508位于任何其它IRAP图像502之前。为此，赋予IRAP图像502和前置图像504其自己的NAL单元类型有助于此类应用。

对于HEVC，IRAP图像的NAL单元类型包括：

伴随前置图像的BLA(BLA_W_LP)：按解码顺序其后可以跟随一个或多个前置图像的断点连接接入(broken link access，BLA)图像的NAL单元。

伴随RADL的BLA(BLA_W_RADL)：按解码顺序其后可以跟随一个或多个RADL图像但没有RASL图像的BLA图像的NAL单元。

未伴随前置图像的BLA(BLA_N_LP)：按解码顺序其后不跟随前置图像的BLA图像的NAL单元。

伴随RADL的IDR(IDR_W_RADL)：按解码顺序其后可以跟随一个或多个RADL图像但没有RASL图像的IDR图像的NAL单元。

未伴随前置图像的IDR(IDR_N_LP)：按解码顺序其后不跟随前置图像的IDR图像的NAL单元。

CRA：后面可以跟随前置图像(即，RASL图像或RADL图像或两者)的清理随机接入(clean random access，CRA)图像的NAL单元。

RADL：RADL图像的NAL单元。

RASL：RASL图像的NAL单元。

对于VVC，IRAP图像502和前置图像504的NAL单元类型如下所述：

RADL：RADL图像的NAL单元。

RASL：RASL图像的NAL单元。

图6示出了用于实现逐步解码刷新(gradual decoding refresh，GDR)技术600的视频码流650。本文使用的视频码流650还可以称为经编码的视频码流、码流或其变体。如图6所示，码流650包括序列参数集(sequence parameter set，SPS)652、图像参数集(pictureparameter set，PPS)654、条带头656以及图像数据658。

SPS 652包括图像序列(sequence of pictures，SOP)中的所有图像共有的数据。相比之下，PPS 654包括整个图像共有的数据。条带头656包括当前条带的信息，例如条带类型、待使用的参考图像等。SPS 652和PPS 654可以统称为参数集。SPS 652、PPS 654和条带头656是网络抽象层(network abstraction layer，NAL)单元的类型。NAL单元是一种语法结构，包括待遵循的数据类型(例如，经译码的视频数据)的指示。NAL单元分为视频编码层(video coding layer，VCL)和非VCL NAL单元。VCL NAL单元包括表示视频图像中样本的值的数据，非VCL NAL单元包括任何关联的附加信息，例如参数集(可应用于大量VCL NAL单元的重要报头数据)和补充增强信息(定时信息和其它补充数据，该补充数据可以增强解码视频信号的可用性，但不是解码视频图像中样本的值时所必需的)。本领域技术人员将会理解，码流650在实际应用中可以包括其它参数和信息。

图6中的图像数据658包括与正在进行编码或解码的图像或视频相关联的数据。图像数据658可以简单地称为码流650中携带的载荷或数据。在一个实施例中，图像数据658包括CVS 608(或CLVS)，该CVS 608(或CLVS)包括GDR图像602、一个或多个后置图像604以及恢复点图像606。在一个实施例中，GDR图像602称为CVS起始(CVS starting，CVSS)图像。CVS608是视频码流650中每个编码层视频序列(coded layer video sequence，CLVS)的编码视频序列。需要说明的是，当视频码流650包括单层时，CVS和CLVS相同。CVS和CLVS仅在视频码流650包括多个层时不同。在一个实施例中，后置图像604可以视为GDR图像的一种形式，因为它们在GDR周期中位于恢复点图像606之前。

在一个实施例中，GDR图像602、后置图像604和恢复点图像606可以限定CVS 608中的GDR周期。在一个实施例中，解码顺序从GDR图像602开始，接着是后置图像604，然后是恢复图像606。

CVS 608是从GDR图像602开始的一系列图像(或其部分)，并包括所有图像(或其部分)，直至但不包括下一个GDR图像或直至码流结束。GDR周期是从GDR图像602开始的一系列图像，并包括直至恢复点图像606并包括恢复点图像606的所有图像。CVS 608的解码过程总是从GDR图像602开始。

如图6所示，GDR技术600或原理应用于以GDR图像602开始并以恢复点图像606结束的一系列图像。GDR图像602包括刷新/干净区域610和未刷新/脏区域612。刷新/干净区域610包括都是通过帧内预测进行译码的块(即帧内预测块)，未刷新/脏区域612包括都是通过帧间预测进行译码的块(即帧间预测块)。

紧邻GDR图像602的后置图像604包括刷新/干净区域610，刷新/干净区域610包括通过帧内预测进行译码的第一部分610A和通过帧间预测进行译码的第二部分610B。第二部分610B通过参考CVS 608的GDR周期内的前一图像等的刷新/干净区域610来进行译码。如图所示，随着译码过程沿一致方向(例如从左到右)移动或前进，后置图像604中的刷新/干净区域610扩大，这样未刷新/脏区域612会相应地缩小。最终，从译码过程中获得仅包含刷新/干净区域610的恢复点图像606。需要说明的是，并且如下文中将进一步描述的，被译码为帧间预测块的刷新/干净区域610的第二部分610B可以仅参考参考图像中的刷新/干净区域610。

如图6所示，CVS 608中的GDR图像602、后置图像604和恢复点图像606各自包含在自己的VCL NAL单元630中。CVS 608中的VCL NAL单元630的集合可以称为接入单元。

在一个实施例中，CVS 608中包含GDR图像602的VCL NAL单元630具有GDR NAL单元类型(GDR_NUT)。即，在一个实施例中，CVS 608中包含GDR图像602的VCL NAL单元630相对于后置图像604和恢复点图像606具有自己唯一的NAL单元类型。在一个实施例中，GDR_NUT允许码流650以GDR图像602开始，而不是码流650必须以IRAP图像开始。例如，将GDR图像602的VCL NAL单元630指定为GDR_NUT可以向解码器指示CVS 608中的初始VCL NAL单元630包括GDR图像602。在一个实施例中，GDR图像602是CVS 608中的初始图像。在一个实施例中，GDR图像602是GDR周期中的初始图像。

图7是当使用编码器限制来支持GDR时不希望进行的运动搜索700的示意图。如图所示，运动搜索700示出了当前图像702和参考图像704。当前图像702和参考图像704分别包括通过帧内预测进行译码的刷新区域706、通过帧间预测进行译码的刷新区域708，以及未刷新区域710。刷新区域706、刷新区域708以及未刷新区域710类似于图6中的刷新/干净区域610中的第一部分610A、刷新/干净区域610中的第二部分610B以及未刷新/脏区域612。

在运动搜索过程中，编码器被限制或阻止选择导致参考块714的一些样本位于刷新区域706之外的任何运动矢量712。即使参考块714在预测当前图像702中的当前块716时提供最佳率失真成本标准，这种情况也会发生。因此，图7示出了当使用编码器限制来支持GDR时，运动搜索700的非最佳性的原因。

图8示出了用于实现清理随机接入(clean random access，CRA)技术800的视频码流850。本文使用的视频码流850还可以称为经编码的视频码流、码流或其变体。如图8所示，码流850包括序列参数集(sequence parameter set，SPS)852、图像参数集(pictureparameter set，PPS)854、条带头856以及图像数据858。图8中的码流850、SPS 852、PPS854和条带头856类似于图6中的码流650、SPS 652、PPS 654和条带头656。因此，为了简洁起见，不再重复对这些元素进行描述。

图8中的图像数据858包括与正在进行编码或解码的图像或视频相关联的数据。图像数据858可以简单地称为码流850中携带的载荷或数据。在一个实施例中，图像数据858包括CVS 808(或CLVS)，该CVS 808(或CLVS)包括CRA图像802、一个或多个后置图像804以及序列末尾图像806。在一个实施例中，CRA图像802称为CVSS图像。CVS 808的解码过程总是从CRA图像802开始。

如图8所示，CVS 808中的CRA图像802、后置图像804和序列末尾图像806各自包含在自己的VCL NAL单元830中。CVS 808中的VCL NAL单元830的集合可以称为接入单元。

图9是单向帧间预测900示例的示意图。单向帧间预测900可以用于确定在分割图像时创建的编码块和/或解码块的运动矢量。

单向帧间预测900采用包括参考块931的参考帧930来预测当前帧910中的当前块911。如图所示，参考帧930可以在时间上位于当前帧910之后(例如，作为下一个参考帧)，但在一些示例中，也可以在时间上位于当前帧910之前(例如，作为前一个参考帧)。当前帧910是在特定时间进行编码/解码的示例帧/图像。当前帧910包括当前块911中的一个对象，该对象与参考帧930中的参考块931中的一个对象匹配。参考帧930是对当前帧910进行编码时用作参考的帧，参考块931是参考帧930中的一个块，这个块包括的对象也包括在当前帧910中的当前块911中。

当前块911是译码过程中在指定时间点进行编码/解码的任何编码单元。当前块911可以是整个分割块，也可以是采用仿射帧间预测模式时的子块。当前帧910与参考帧930间隔一定时间距离(temporal distance，TD)933。TD 933表示视频序列中的当前帧910与参考帧930之间的时间量，可以以帧为单位进行测量。当前块911的预测信息可以通过表示各帧之间的方向和时间距离的参考索引对参考帧930和/或参考块931进行参考。在TD 933表示的时间段内，当前块911中的对象从当前帧910中的一个位置移动到参考帧930中的另一个位置(例如，参考块931的位置)。例如，该对象可以沿着运动路径(traiectory)913移动，运动路径913表示对象随时间移动的方向。运动矢量935描述该对象在TD 933内沿着运动路径913移动的方向和幅度。因此，经编码的运动矢量935、参考块931和包括当前块911与参考块931之间差值的残差提供足够信息来重建当前块911并且在当前帧910中定位当前块911。

图10是双向帧间预测1000示例的示意图。双向帧间预测1000可以用于确定在分割图像时创建的编码块和/或解码块的运动矢量。

双向帧间预测1000类似于单向帧间预测900，但采用一对参考帧来预测当前帧1010中的当前块1011。因此，当前帧1010和当前块1011分别基本上类似于当前帧710和当前块711。当前帧1010在时间上位于前一个参考帧1020与下一个参考帧1030之间，其中，前一个参考帧1020在视频序列中出现在当前帧1010之前，下一个参考帧1030在视频序列中出现在当前帧1010之后。前一个参考帧1020和下一个参考帧1030在其它方面基本上类似于参考帧930。

当前块1011与前一个参考帧1020中的前一个参考块1021和下一个参考帧1030中的下一个参考块1031匹配。这种匹配表示，在视频序列的过程中，一个对象沿着运动路径1013从前一个参考块1021中的位置经过当前块1011移动到下一个参考块1031中的位置。当前帧1010与前一个参考帧1020间隔一定的前一个时间距离(TD0)1023，且与下一个参考帧1030间隔一定的下一个时间距离(TD1)1033。TD01023表示视频序列中前一个参考帧1020与当前帧1010之间以帧为单位的时间量。TD1 1033表示视频序列中当前帧1010与下一个参考帧1030之间以帧为单位的时间量。因此，该对象在由TD01023表示的时间段内沿着运动路径1013从前一个参考块1021移动到当前块1011。该对象还在由TD1 1033表示的时间段内沿着运动路径1013从当前块1011移动到下一个参考块1031。当前块1011的预测信息可以通过一对表示各帧之间的方向和时间距离的参考索引对前一个参考帧1020和/或前一个参考块1021以及下一个参考帧1030和/或下一个参考块1031进行参考。

前一个运动矢量(MV0)1025描述该对象在TD01023(例如，在前一个参考帧1020与当前帧1010之间)内沿着运动路径1013移动的方向和幅度。下一个运动矢量(MV1)1035描述该对象在TD1 1033(例如，在当前帧1010与下一个参考帧1030之间)内沿着运动路径1013移动的方向和幅度。因此，在双向帧间预测1000中，当前块1011可以通过前一个参考块1021和/或下一个参考块1031、MV01025和MV1 1035进行译码和重建。

在一个实施例中，帧间预测和/或双向帧间预测可以基于逐个样本(例如，逐个像素)执行，而不是基于逐个块执行。即，可以针对当前块1011中的每个样本确定指向前一个参考块1021和/或下一个参考块1031中的每个样本的运动矢量。在这些实施例中，图10中描绘的运动矢量1025和运动矢量1035表示对应于当前块1011、前一个参考块1021和下一个参考块1031中的多个样本的多个运动矢量。

在融合模式和先进的运动矢量预测(advanced motion vector prediction，AMVP)模式中，候选列表是通过按照候选列表确定模式定义的顺序将候选运动矢量添加到候选列表中生成的。这类候选运动矢量可以包括根据单向帧间预测900、双向帧间预测1000或其组合的运动矢量。具体地，运动矢量是在相邻块进行编码时针对这类块生成的。这类运动矢量被添加到当前块的候选列表中，而且当前块的运动矢量是从该候选列表中选择的。然后，运动矢量可以指示为选定运动矢量在候选列表中的索引。解码器可以使用与编码器相同的过程构建候选列表，并可以根据指示的索引从候选列表中确定选定的运动矢量。因此，候选运动矢量包括根据单向帧间预测900和/或双向帧间预测1000生成的运动矢量，具体取决于在编码这些相邻块时使用哪种方法。

图11是示例性参考图像列表结构1100的示意图。参考图像列表结构1100可以用于存储在单向帧间预测900和/或双向帧间预测1000中使用的参考图像和/或层间参考图像的指示。因此，参考图像列表结构1100可以由编解码系统200、编码器300和/或解码器400在执行方法100时使用。

参考图像列表结构1100，也称为RPL结构，是包含多个参考图像列表(例如RPL01111和RPL1 1112)的可寻址语法结构。根据示例，参考图像列表结构1100可以存储在码流的SPS、图像头和/或条带头中。参考图像列表，例如RPL01111和RPL1 1112，是用于帧间预测和/或层间预测的参考图像的列表。具体地，单向帧间预测900使用的参考图像存储在RPL01111中，双向帧间预测1000使用的参考图像存储在RPL01111和RPL1 1112中。例如，双向帧间预测1000可以使用RPL01111中的一个参考图像和RPL1 1112中的一个参考图像。RPL01111和RPL1 1112都可以包括多个表项1115。参考图像列表结构表项1115是参考图像列表结构1100中的可寻址位置，该可寻址位置表示与参考图像列表(例如RPL01111和/或RPL1 1112)相关联的参考图像。

在一个具体示例中，参考图像列表结构1100可以表示为ref_pic_list_struct(listIdx，rplsIdx)，其中，listIdx 1121标识参考图像列表RPL01111和/或RPL1 1112，rplsIdx 1125标识参考图像列表中的表项1115。相应地，ref_pic_list_struct是根据listIdx 1121和rplsIdx1125返回表项1115的语法结构。编码器可以对用于视频序列中的每个非帧内译码条带的参考图像列表结构1100的一部分进行编码。然后，解码器可以在对编码视频序列中的每个非帧内译码条带进行解码之前解析参考图像列表结构1100的对应部分。在一个实施例中，本文讨论的参考图像列表是由编码器或解码器使用存储在编码器或解码器中的信息译码、构造、推导或以其它方式获取的，至少一部分是从码流中获取的，等等。

图12A至图12C是共同说明交错视频译码示例的示意图。交错视频译码从第一图像1201和第二图像1202(如图12A和图12B所示)中生成交错视频帧1200(如图12C所示)。例如，当编码包含交错视频帧1200的视频是方法100的一部分时，编解码系统200和/或编码器300等编码器可以采用交错视频译码。此外，编解码系统200和/或解码器400等解码器可以解码包括交错视频帧1200的视频。另外，交错视频帧1200可以被编码到CVS中，例如图5中的CVS500，以下结合图13会更详细地进行讨论。

在执行交错视频译码时，第一场1210在第一时间被捕获并编码到第一图像1201中，如图12A所示。第一场1210包括视频数据的水平行。具体地，第一场1210中的视频数据的水平行从第一图像1201的左边界延伸到第一图像1201的右边界。然而，第一场1210中省略了视频数据的交替行。在一种示例性实现方式中，第一场1210包含视频捕获设备在第一时间捕获的视频数据的一半。

如图12B所示，第二场1212在第二时间被捕获并编码到第二图像1202中。例如，第二时间可以紧随第一时间之后，且二者间隔基于帧率设置的值，其中，该帧率是为视频设置的帧率。例如，在被设置为以15帧每秒(frames per second，FPS)的帧率显示的视频中，第二时间可以在第一时间之后的十五分之一秒处。如图所示，第二场1212包括与第一图像1201的第一场1210的水平行互补的视频数据的水平行。具体地，第二场1212中的视频数据的水平行从第二图像1202的左边界延伸到第二图像1202的右边界。第二场1212包含第一场1210中省略的水平行。此外，第二场1212中省略了包含在第一场1210中的水平行。

第一图像1201的第一场1210和第二图像1202的第二场1212可以被组合，以作为交错视频帧1200在解码器侧进行显示，如图12C所示。具体地，交错视频帧1200包含在第一时间捕获的第一图像1201的第一场1210以及在第二时间捕获的第二图像1202的第二场1212。这种组合具有强调和/或夸大运动的视觉效果。当作为视频的一部分进行显示时，一系列交错视频帧1200会产生如下效果：视频以增加的帧率进行编码，而不需要实际编码额外的帧。这样，采用交错视频帧1200的交错视频译码可以增加视频的有效帧率，而不会增加视频数据的大小。因此，交错视频译码可以提高经编码视频序列的译码效率。

图13是采用交错视频译码(例如，为了创建交错视频帧1200)和前置图像的示例性CVS 1300的示意图。CVS 1300基本上类似于CVS 500，但被修改为使用场来编码图像，例如第一图像1201和第二图像1202，同时保留前置图像。例如，根据方法100，CVS 1300可以由编解码系统200和/或编码器300等编码器进行编码。此外，CVS 1300可以由编解码系统200和/或解码器400等解码器进行解码。

CVS 1300具有解码顺序1308和呈现顺序(也称为输出顺序)1310，它们分别以基本上类似于解码顺序508和呈现顺序510的方式操作。CVS 1300还包含IRAP图像1302、前置图像1304和后置图像1306，它们类似于IRAP图像502、前置图像504和后置图像506。区别在于，IRAP图像1302、前置图像1304和后置图像1306都是以基本上类似于第一场1210和第二场1212的方式使用场进行译码的，如参照图12A至图12C中所述。因此，每帧包括两个图像。相应地，CVS 1300包含的图像数量是CVS 500包含的图像数量的两倍。然而，CVS 1300包含的数据量与CVS 500包含的数据量大致相同，因为CVS 1300的每个图像中省略了帧的一半。

CVS 1300存在的问题是，IRAP图像1302是通过包括帧内预测编码数据的第一场进行编码的。然后，帧内预测编码数据的第二场包括在非前置图像1303中。非前置图像1303不是IRAP图像1302，因为解码器不能在非前置图像1303处开始解码CVS 1300。这是因为这样做将会省略与IRAP图像1302相关联的帧的一半。这会造成问题，因为采用VVC的视频译码系统可能被限制为按解码顺序1308将前置图像1304放置在紧随IRAP图像1302的位置。

在一个实施例中，可以发送标志以指示何时单个非前置图像1303可以位于IRAP图像1302和前置图像1304之间。视频系统仍然可以被限制以避免非前置图像1303和/或后置图像1306位于前置图像1304之间。相应地，该标志可以指示解码顺序1308为：IRAP图像1302、单个非前置图像1303、任意前置图像1304(例如，前置图像1304是可选的，并且在一些示例中可以省略)以及一个或多个后置图像1306。因此，该标志可以向解码器指示是期望CVS 500还是CVS 1300。

图14示出了图像1410的分割技术1400。图像1410可以类似于本文中讨论的任何图像(例如，图像502至506、图像602至606、图像702至704以及图像802至806)。如图所示，图像1410可以被分割为多个条带1412。条带是帧(例如图像)的空间上不同的区域，该区域与同一帧中任何其它区域分开编码。虽然图14中描绘了三个条带1412，但在实际应用中可以使用更多或更少的条带。每个条带1412可以被分割为多个块1414。图14中的块1414可以类似于图10中的当前块1011、前一个参考块1021和下一个参考块1031。块1414可以表示CU。虽然图14中描绘了四个块1414，但在实际应用中可以使用更多或更少的块。

图15是解码方法1500的实施例。方法1500可以由视频解码器(例如，解码器400)使用。方法1500可以在从视频编码器(例如视频编码器300)直接或间接地接收编码视频码流之后执行。方法1500通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了解码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤1502中，所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像。在步骤1504中，所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表。在一个实施例中，参考图像列表是由解码器使用存储在解码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤1506中，所述视频解码器确定所述当前图像为清理随机接入(cleanrandom access，CRA)图像。所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像。

在一个实施例中，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。在一个实施例中，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像。在一个实施例中，所述第一参考图像列表被指定为RefPicList[0]，所述第二参考图像列表被指定为RefPicList[1]。

在步骤1508中，所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。在一个实施例中，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行解码的。在一个实施例中，所述方法1500还包括：在所述视频解码器的显示器上显示基于所述CRA图像生成的图像。

图16是编码方法1600的实施例。方法1600可以由视频编码器(例如，视频编码器300)使用。该方法可以在图像(例如，视频中的图像)要被编码到视频码流中并接着向视频解码器(例如，视频解码器400)发送时执行。方法1600通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了编码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤1602中，在当前图像为清理随机接入(clean random access，CRA)图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表。在一个实施例中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像。在一个实施例中，参考图像列表是由编码器使用存储在编码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤1604中，所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述CRA图像编码到视频码流中。

在步骤1606中，所述视频编码器存储所述视频码流，以向视频解码器发送。在一个实施例中，所述视频编码器向所述视频解码器发送所述视频码流。

图17是解码方法1700的实施例。方法1700可以由视频解码器(例如，解码器400)使用。方法1700可以在从视频编码器(例如视频编码器300)直接或间接地接收编码视频码流之后执行。方法1700通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了解码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤1702中，所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像。在步骤1704中，所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表。在一个实施例中，参考图像列表是由解码器使用存储在解码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤1706中，所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像。所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像。在一个实施例中，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

在一些情况下，图像被用作随机接入点，而不刷新DPB。例如，GDR图像和CRA图像可以用作随机接入点，并且可以不刷新DPB。因此，GDR图像以及与GDR图像和/或CRA图像相关联的帧间译码图像可以参考DPB中位于GDR/CRA图像之前的参考图像。当GDR/CRA图像被用作随机接入点时，由于GDR/CRA图像被用作显示视频序列的起点，解码器侧的DPB可能为空。因此，当前图像可以参考视频序列中的先前图像，该先前图像在编码期间在编码器侧可用，但由于参考图像尚未传输，在解码器侧不可用。这种参考图像称为不可用参考图像。在这种情况下，可以在解码器侧调用用于生成不可用参考图像的过程。用于生成不可用参考图像的过程采用码流参数来生成不可用参考图像的粗略近似。由于生成的不可用参考图像的质量可能不足以支持显示，生成的不可用参考图像可能不显示。然而，生成的不可用参考图像提供了足够的数据来支持对参考该不可用参考图像的当前图像进行解码。

在一个实施例中，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

在调用用于生成不可用参考图像的解码过程时，以下适用。

-对于等于“无参考图像”的每个RefPicList[i][j]，其中，i的取值范围为0到1(包括端值)，j的取值范围为0到num_ref_entries[i][RplsIdx[i]]-1(包括端值)，按照VVC标准第8.3.4.2子节“一个不可用图像的生成”中的规定生成图像，且以下适用：

-生成的图像的nuh_layer_id的值被设置为当前图像的nuh_layer_id。

-如果st_ref_pic_flag[i][RplsIdx[i]][j]等于1，且inter_layer_ref_pic_flag[i][RplsIdx[i]][j]等于0，则生成的图像的PicOrderCntVal的值被设置为RefPicPocList[i][j]，且生成的图像被标记为“用于短期参考”。

-否则，当st_ref_pic_flag[i][RplsIdx[i]][j]等于0，且inter_layer_ref_pic_flag[i][RplsIdx[i]][j]等于0时，生成的图像的PicOrderCntVal的值被设置为RefPicLtPocList[i][j]，生成的图像的ph_pic_order_cnt_lsb的值被推断为等于(RefPicLtPocList[i][j]&(MaxPicOrderCntLsb-1))，且生成的图像被标记为“用于长期参考”。

-生成的参考图像的PictureOutputFlag的值被设置为0。

-RefPicList[i][j]被设置为生成的参考图像。

一个不可用图像的生成如下所述。

在调用此过程时，不可用图像生成如下：

图像的样本阵列SL中每个元素的值被设置为1＜＜(BitDepth-1)。

当ChromaArrayType不等于0时，图像的样本阵列SCb和SCr中每个元素的值被设置为1＜＜(BitDepth-1)。

预测模式CuPredMode[0][x][y]被设置为MODE_INTRA，其中，x的取值范围为0至pps_pic_width_in_luma_samples-1(包括端值)，y的取值范围为0至pps_pic_height_in_luma_samples-1(包括端值)。

注-NoOutputBeforeRecoveryFlag等于1的GDR图像之后的恢复点图像的输出以及按输出顺序和解码顺序位于该恢复点图像之后的图像的输出与为SL、SCb、SCr以及CuPredMode[0][x][y]的元素设置的值无关。

nuh_layer_id表示VCL NAL单元所属的层的标识或应用了非VCL NAL单元的层的标识。RplsIdx是参考图像列表索引。st_ref_pic_flag是参考图像列表语法结构中的标志，用于指示参考图像列表是否为短期参考图像表项。PicOrderCntVal表示图像顺序编号(picture order count，POC)的值。MaxPicOrderCntLsb表示最大图像顺序编号的一个或多个最低有效位。PictureOutputFlag是用于指示图像是否被输出的标志。

在步骤1708中，所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。在一个实施例中，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。在一个实施例中，所述方法1700还包括：在所述视频解码器的显示器上显示基于所述后置图像生成的图像。

图18是编码方法1800的实施例。方法1800可以由视频编码器(例如，视频编码器300)使用。该方法可以在图像(例如，视频中的图像)要被编码到视频码流中并接着向视频解码器(例如，视频解码器400)发送时执行。方法1800通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了编码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤1802中，在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表。在一个实施例中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像。在一个实施例中，参考图像列表是由编码器使用存储在编码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在一个实施例中，所述视频编码器能够在每次NoOutPutBeforeRecoveryFlag等于1时进行检查，以确保参考图像列表不参考先前CVS中的任何参考图像，因为当CRA图像或GDR图像被选择为随机接入点时，这些图像在视频解码器侧不可用。在这种情况下，视频编码器执行此检查，因为视频解码器也将执行此检查。

在一个实施例中，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。在一个实施例中，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

在步骤1804中，所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中。

在步骤1806中，所述视频编码器存储所述视频码流，以向视频解码器发送。在一个实施例中，所述视频编码器向所述视频解码器发送所述视频码流。

图19是解码方法1900的实施例。方法1900可以由视频解码器(例如，解码器400)使用。方法1900可以在从视频编码器(例如视频编码器300)直接或间接地接收编码视频码流之后执行。方法1900通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了解码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤1902中，所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像。在步骤1904中，所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表。在一个实施例中，参考图像列表是由解码器使用存储在解码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤1906中，所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像。所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像。

在一个实施例中，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

在步骤1908中，所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。在一个实施例中，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。在一个实施例中，所述方法1900还包括：在所述视频解码器的显示器上显示基于所述后置图像生成的图像。

图20是编码方法2000的实施例。方法2000可以由视频编码器(例如，视频编码器300)使用。该方法可以在图像(例如，视频中的图像)要被编码到视频码流中并接着向视频解码器(例如，视频解码器400)发送时执行。方法2000通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了编码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤2002中，在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表。在一个实施例中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像。在一个实施例中，参考图像列表是由编码器使用存储在编码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤2004中，所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中。

在步骤2006中，所述视频编码器存储所述视频码流，以向视频解码器发送。在一个实施例中，所述视频编码器向所述视频解码器发送所述视频码流。

图21是解码方法2100的实施例。方法2100可以由视频解码器(例如，解码器400)使用。方法2100可以在从视频编码器(例如视频编码器300)直接或间接地接收编码视频码流之后执行。方法2100通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了解码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤2102中，所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像。在步骤2104中，所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表。在一个实施例中，参考图像列表是由解码器使用存储在解码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤2106中，所述视频解码器确定所述当前图像为可解码随机接入前置(random access decodable leading，RADL)图像。所述RADL图像表示所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(randomaccess skipped leading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像。在一个实施例中，以下任一项可以指以下任意一个。

在步骤2108中，所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述RADL图像的每个条带进行解码。在一个实施例中，所述方法2100还包括：在所述视频解码器的显示器上显示基于所述RADL图像生成的图像。

图22是编码方法2200的实施例。方法2200可以由视频编码器(例如，视频编码器300)使用。该方法可以在图像(例如，视频中的图像)要被编码到视频码流中并接着向视频解码器(例如，视频解码器400)发送时执行。方法2200通过在当前图像为特定类型的图像(例如，CRA图像、后置图像、按解码顺序和输出顺序均位于与同一IRAP图像相关联的一个或多个前置图像之后的后置图像、RADL图像)时限制参考图像列表包括参考特定图像的表项改进了编码过程。相对于传统的译码技术，采用这种方式限制参考图像列表可以减少译码错误以及译码所需的网络资源和/或带宽的量。因此，实际上，提高了编解码器的性能，从而提供了更好的用户体验。

在步骤2202中，在当前图像为可解码随机接入前置(random access decodableleading，RADL)图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：跳过随机接入前置(random access skipped leading，RASL)图像；通过用于生成不可用参考图像的解码过程生成的图像；按解码顺序位于关联的帧内随机接入点(intra random accesspoint，IRAP)图像之前的图像。在一个实施例中，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。在一个实施例中，参考图像列表是由编码器使用存储在编码器中的信息译码、构造或以其它方式获取的，至少一部分是从码流中获取的，等等。

在步骤2204中，所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述RADL图像编码到视频码流中。

在步骤2206中，所述视频编码器存储所述视频码流，以向视频解码器发送。在一个实施例中，所述视频编码器向所述视频解码器发送所述视频码流。

图23为示例性视频译码设备2300的示意图。视频译码设备2300适用于实现本文描述的所公开示例/实施例。视频译码设备2300包括下行端口2310、上行端口2350和/或收发单元(Tx/Rx)2320和2340，其中，收发单元包括发送器和/或接收器，用于通过网络在上行和/或下行进行数据通信。视频译码设备2300还包括处理器2330和存储器2360。处理器2330包括逻辑单元和/或中央处理单元(central processing unit，CPU)，以处理数据。存储器2360用于存储数据。视频译码设备2300还可以包括与上行端口2350和/或下行端口2310耦合的电子组件、光电(optical-to-electrical，OE)组件、电光(electrical-to-optical，EO)组件和/或无线通信组件，用于通过电、光或无线通信网络进行数据通信。视频译码设备2300还可以包括输入和/或输出(input/output，I/O)设备2380，用于与用户进行数据通信。I/O设备2380可以包括输出设备，例如用于显示视频数据的显示器、用于输出音频数据的扬声器等。I/O设备2380还可以包括键盘、鼠标、轨迹球等输入设备和/或与上述输出设备进行交互的对应接口。

处理器2330通过硬件和软件实现。处理器2330可以实现为一个或多个CPU芯片、核(例如，多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application-specific integrated circuit，ASIC)和数字信号处理器(digitalsignal processor，DSP)。处理器2330与下行端口2310、Tx/Rx 2320和2340、上行端口2350以及存储器2360通信。处理器2330包括译码模块2314。译码模块2370实现本文描述的公开实施例，并且还可以实现本文描述的任何其它方法/机制。此外，所述译码模块2370可以实现编解码系统200、编码器300和/或解码器400。例如，译码模块2370可以用于译码参考图像结构中的层间残差预测(inter-layer residual prediction，ILRP)标志和/或ILRP层指示符，以便管理参考图像，从而支持层间预测，如上所述。因此，译码模块2370使得视频译码设备2300在对视频数据进行译码时提供其它功能和/或提高译码效率。因此，译码模块2314改进了视频译码设备2300的功能，并解决了视频译码领域特有的问题。此外，译码模块2370可以将视频译码设备2300变换到不同的状态。或者，译码模块2370可以实现为存储在存储器2360中并由处理器2330执行的指令(例如，存储在非瞬时性介质中的计算机程序产品)。

存储器2360包括一种或多种存储器类型，例如磁盘、磁带机、固态硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、闪存、三态内容寻址存储器(ternary content-addressable memory，TCAM)、静态随机存取存储器(static random access memory，SRAM)等。存储器2360可以用作溢出数据存储设备，以在选择程序用于执行时存储这些程序，并存储在执行程序过程中读取的指令和数据。

图24是译码模块2400的实施例的示意图。在一个实施例中，译码模块2400在视频译码设备2402(例如视频编码器300或视频解码器400)中实现。视频译码设备2402包括接收模块2401。接收模块2401用于接收图像进行编码或者接收码流进行解码。视频译码设备2402包括与接收模块2401耦合的发送模块2407。发送模块2407用于向解码器发送所述码流或者向显示模块(例如多个I/O设备2380中的一个I/O设备)发送解码图像。

视频译码设备2402包括存储模块2403。存储模块2403与接收模块2401或发送模块2407中的至少一个耦合。存储模块2403用于存储指令。视频译码设备2402还包括处理模块2405。处理模块2405与存储模块2403耦合。处理模块2405用于执行存储在存储模块2403中的指令，以执行本文公开的方法。

还应当理解，本文中阐述的示例性方法的步骤不一定需要按照所描述的顺序执行，并且这些方法的步骤的顺序应当理解为仅仅是示例性的。同理，在与本发明各种实施例相一致的方法中，这些方法可以包括其它步骤，并且某些步骤可以省略或组合。

虽然本发明提供了若干个实施例，但应当理解，在不脱离本发明的精神或范围的情况下，所公开的系统和方法可以通过其它多种具体形式体现。本发明的示例将被视为说明性而非限制性的，且本发明并不限于本文中所给出的详细内容。例如，各种元件或组件可以组合或集成在另一系统中，或者一些特征可以省略或不实施。

另外，在不脱离本发明范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法组合或集成。展示或描述为彼此耦合或直接耦合或相互通信的其它项可以采用电方式、机械方式或其它方式通过某种接口、设备或中间组件间接地耦合或通信。其它变更、替换、更改示例能够由本领域技术人员确定，并且可以在不脱离本文公开的精神和范围的情况下进行。

Claims

1.一种由视频解码器实现的解码方法，其特征在于，所述方法包括：

所述视频解码器接收编码视频码流，其中，所述编码视频码流包括当前图像；

所述视频解码器推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；

所述视频解码器确定所述当前图像为清理随机接入(clean random access，CRA)图像，其中，所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；

所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。

2.根据权利要求1所述的方法，其特征在于，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述CRA图像是采用帧内预测进行解码的。

5.根据权利要求1至4中任一项所述的方法，其特征在于，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行解码的。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第一参考图像列表被指定为RefPicList[0]，所述第二参考图像列表被指定为RefPicList[1]。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：在所述视频解码器的显示器上显示基于所述CRA图像生成的图像。

8.一种由视频编码器实现的编码方法，其特征在于，所述方法包括：

在当前图像为清理随机接入(clean random access，CRA)图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；

所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述CRA图像编码到视频码流中；

所述视频编码器存储所述视频码流，以向视频解码器发送。

9.根据权利要求8所述的方法，其特征在于，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。

10.根据权利要求8至9中任一项所述的方法，其特征在于，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像。

11.根据权利要求8至10中任一项所述的方法，其特征在于，所述CRA图像是采用帧内预测进行编码的。

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述方法还包括：采用帧间预测对按所述解码顺序位于所述CRA图像之后的一个或多个图像进行编码。

13.根据权利要求8至12中任一项所述的方法，其特征在于，所述第一参考图像列表被指定为RefPicList[0]，所述第二参考图像列表被指定为RefPicList[1]。

14.根据权利要求8至13中任一项所述的方法，其特征在于，所述方法还包括：向所述视频解码器发送所述视频码流。

15.一种解码设备，其特征在于，所述解码设备包括：

接收器，用于接收编码视频码流，其中，所述编码视频码流包括当前图像；

耦合到所述接收器的存储器，其中，所述存储器存储指令；

耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述解码设备执行以下操作：

推导所述当前图像的每个条带的第一参考图像列表和第二参考图像列表；

确定所述当前图像为清理随机接入(clean random access，CRA)图像，其中，所述CRA图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra randomaccess point，IRAP)图像之前的图像；

基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述CRA图像的每个条带进行解码。

16.根据权利要求15所述的解码设备，其特征在于，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。

17.根据权利要求15至16中任一项所述的解码设备，其特征在于，所述先前IRAP图像为包含所述CRA图像的编码视频序列(coded video sequence，CVS)的起始图像，所述CRA图像是采用帧内预测进行解码的，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行解码的。

18.根据权利要求15至17中任一项所述的解码设备，其特征在于，所述解码设备还包括显示器，用于基于已解码的所述CRA图像显示图像。

19.一种编码设备，其特征在于，所述编码设备包括：

包括指令的存储器；

耦合到所述存储器的处理器，其中，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：

在当前图像包括清理随机接入(clean random access，CRA)图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按输出顺序或解码顺序位于所述解码顺序中的任何先前帧内随机接入点(intra random access point，IRAP)图像之前的图像；

将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述CRA图像编码到视频码流中；

耦合到所述处理器的发送器，其中，所述发送器用于向视频解码器发送所述视频码流。

20.根据权利要求19所述的编码设备，其特征在于，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前。

21.根据权利要求19至20中任一项所述的编码设备，其特征在于，所述先前IRAP图像按所述输出顺序或所述解码顺序位于所述CRA图像之前，所述CRA图像是采用帧内预测进行编码的，按所述解码顺序位于所述CRA图像之后的一个或多个图像是采用帧间预测进行编码的。

22.根据权利要求19至21中任一项所述的编码设备，其特征在于，在所述发送器向所述视频解码器发送所述码流之前，所述存储器存储所述视频码流。

23.一种由视频解码器实现的解码方法，其特征在于，所述方法包括：

所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；

所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

24.根据权利要求23所述的方法，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

25.根据权利要求23至24中任一项所述的方法，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

26.根据权利要求23至25中任一项所述的方法，其特征在于，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。

27.一种由视频编码器实现的编码方法，其特征在于，所述方法包括：

在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；

所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；

所述视频编码器存储所述视频码流，以向视频解码器发送。

28.根据权利要求27所述的方法，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

29.根据权利要求27至28中任一项所述的方法，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

30.根据权利要求27至29中任一项所述的方法，其特征在于，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

31.根据权利要求27至30中任一项所述的方法，其特征在于，所述方法还包括：向所述视频解码器发送所述视频码流。

32.一种解码设备，其特征在于，所述解码设备包括：

耦合到所述接收器的存储器，其中，所述存储器存储指令；

确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intrarandom access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；

基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述后置图像的每个条带进行解码。

33.根据权利要求32所述的解码设备，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

34.根据权利要求32至33中任一项所述的解码设备，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

35.根据权利要求32至34中任一项所述的解码设备，其特征在于，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。

36.一种编码设备，其特征在于，所述编码设备包括：

包括指令的存储器；

在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且通过用于为所述当前图像相关联的所述IRAP图像生成不可用参考图像的解码过程生成的图像；

将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述后置图像编码到视频码流中；

37.根据权利要求36所述的编码设备，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

38.根据权利要求36至37中任一项所述的编码设备，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

39.根据权利要求36至38中任一项所述的编码设备，其特征在于，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

40.根据权利要求36至39中任一项所述的编码设备，其特征在于，在所述发送器向所述视频解码器发送所述码流之前，所述存储器存储所述视频码流。

41.一种由视频解码器实现的解码方法，其特征在于，所述方法包括：

所述视频解码器确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra random access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；

42.根据权利要求41所述的方法，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

43.根据权利要求41至42中任一项所述的方法，其特征在于，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。

44.一种由视频编码器实现的编码方法，其特征在于，所述方法包括：

在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；

所述视频编码器存储所述视频码流，以向视频解码器发送。

45.根据权利要求44所述的方法，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

46.根据权利要求44至45中任一项所述的方法，其特征在于，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

47.根据权利要求44至46中任一项所述的方法，其特征在于，所述方法还包括：向所述视频解码器发送所述视频码流。

48.一种解码设备，其特征在于，所述解码设备包括：

耦合到所述接收器的存储器，其中，所述存储器存储指令；

确定所述当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intrarandom access point，IRAP)图像相关联的一个或多个前置图像之后的后置图像，其中，所述后置图像表示不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；

49.根据权利要求48所述的解码设备，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

50.根据权利要求48至49中任一项所述的解码设备，其特征在于，所述同一IRAP图像是采用帧内预测进行解码的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行解码的。

51.一种编码设备，其特征在于，所述编码设备包括：

包括指令的存储器；

在当前图像为按解码顺序和输出顺序均位于与同一帧内随机接入点(intra randomaccess point，IRAP)图像相关联的一个或多个前置图像之后的后置图像时，推导第一参考图像列表和第二参考图像列表，其中，不存在被所述第一参考图像列表或所述第二参考图像列表中的表项参考且按所述输出顺序或所述解码顺序位于所述同一IRAP图像之前的图像；

52.根据权利要求51所述的编码设备，其特征在于，所述同一IRAP图像为包含所述后置图像和所述一个或多个前置图像的编码视频序列(coded video sequence，CVS)的起始图像。

53.根据权利要求51至52中任一项所述的编码设备，其特征在于，所述同一IRAP图像是采用帧内预测编码到所述视频码流中的，所述后置图像和所述一个或多个前置图像是采用帧间预测进行编码的。

54.根据权利要求51至53中任一项所述的编码设备，其特征在于，在所述发送器向所述视频解码器发送所述码流之前，所述存储器存储所述视频码流。

55.一种由视频解码器实现的解码方法，其特征在于，所述方法包括：

所述视频解码器确定所述当前图像为可解码随机接入前置(random accessdecodable leading，RADL)图像，其中，所述RADL图像表示所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：

跳过随机接入前置(random access skipped leading，RASL)图像；

通过用于生成不可用参考图像的解码过程生成的图像；

按解码顺序位于关联的帧内随机接入点(intra random access point，IRAP)图像之前的图像；

所述视频解码器基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述RADL图像的每个条带进行解码。

56.根据权利要求55所述的方法，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

57.一种由视频编码器实现的编码方法，其特征在于，所述方法包括：

在当前图像为可解码随机接入前置(random access decodable leading，RADL)图像时，所述视频编码器推导第一参考图像列表和第二参考图像列表，其中，所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：

跳过随机接入前置(random access skipped leading，RASL)图像；

通过用于生成不可用参考图像的解码过程生成的图像；

所述视频编码器将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述RADL图像编码到视频码流中；

所述视频编码器存储所述视频码流，以向视频解码器发送。

58.根据权利要求57所述的方法，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

59.一种解码设备，其特征在于，所述解码设备包括：

耦合到所述接收器的存储器，其中，所述存储器存储指令；

确定所述当前图像为可解码随机接入前置(random access decodable leading，RADL)图像，其中，所述RADL图像表示所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：

跳过随机接入前置(random access skipped leading，RASL)图像；

通过用于生成不可用参考图像的解码过程生成的图像；

基于所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个对所述RADL图像的每个条带进行解码。

60.根据权利要求59所述的解码设备，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

61.一种编码设备，其特征在于，所述编码设备包括：

包括指令的存储器；

在当前图像为可解码随机接入前置(random access decodable leading，RADL)图像时，推导第一参考图像列表和第二参考图像列表，其中，所述第一参考图像列表或所述第二参考图像列表中不存在以下任一激活表项：

跳过随机接入前置(random access skipped leading，RASL)图像；

通过用于生成不可用参考图像的解码过程生成的图像；

将所述第一参考图像列表和所述第二参考图像列表中的其中一个或两个以及所述RADL图像编码到视频码流中；

62.根据权利要求61所述的编码设备，其特征在于，对于NoOutPutBeforeRecoveryFlag等于1的清理随机接入(clean random access，CRA)图像或NoOutPutBeforeRecoveryFlag等于1的逐步解码刷新(gradual decoding refresh，GDR)图像，所述用于生成不可用参考图像的解码过程按每一编码图像调用一次。

63.一种译码装置，其特征在于，所述译码装置包括：

接收器，用于接收图像进行编码或接收码流进行解码；

耦合到所述接收器的发送器，所述发送器用于将所述码流发送到解码器或将解码图像发送到显示器；

与所述接收器或所述发送器中的至少一个耦合的存储器，所述存储器用于存储指令；

耦合到所述存储器的处理器，所述处理器用于执行所述存储器中存储的所述指令，以执行根据权利要求1至7、23至26、41至43以及55至56中任一项以及权利要求8至14、27至31、44至47以及57至58中任一项所述的方法。

64.根据权利要求63所述的译码装置，其特征在于，所述译码装置还包括用于显示图像的显示器。

65.一种系统，其特征在于，所述系统包括：

编码器；

与所述编码器通信的解码器，其中，所述编码器或所述解码器包括根据权利要求15至22、32至39、48至54以及59至64中任一项所述的解码设备、编码设备或译码装置。

66.一种译码模块，其特征在于，所述译码模块包括：

接收模块，用于接收图像进行编码或接收码流进行解码；

耦合到所述接收模块的发送模块，所述发送模块用于将所述码流发送到解码模块或将解码图像发送到显示模块；

与所述接收模块或所述发送模块中的至少一个耦合的存储模块，所述存储模块用于存储指令；

耦合到所述存储模块的处理模块，所述处理模块用于执行所述存储模块中存储的所述指令，以执行根据权利要求1至7、23至26、41至43以及55至56中任一项以及权利要求8至14、27至31、44至47以及57至58中任一项所述的方法。