CN113632478A

CN113632478A - 利用前置图像的交错视频译码

Info

Publication number: CN113632478A
Application number: CN202080025185.5A
Authority: CN
Inventors: 弗努·亨德里; 王业奎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-04-03
Filing date: 2020-04-02
Publication date: 2021-11-09
Also published as: EP3939290B1; KR20210141710A; ES2967911T3; PT3939290T; EP3939290A1; FI3939290T3; WO2020206171A1; US20220021896A1; PL3939290T3; EP3939290A4; US20240163467A1; EP4277271A3; JP2022527555A; MX2021012094A; DK3939290T3; EP4277271A2; HUE064155T2

Abstract

本发明公开了一种视频译码机制。所述机制包括：接收码流，所述码流包括标志和多个编码图像，所述多个编码图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像。当所述标志被设置为第一值时，与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像。当所述标志被设置为第二值时，一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像。基于所述标志，按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码。

Description

利用前置图像的交错视频译码

相关申请案交叉引用

本专利申请要求FNU Hendry等人于2019年4月3日提交的发明名称为“视频译码中帧内随机接入点图像和前置图像的处理(Handling Intra Random Access Point AndLeading Pictures In Video Coding)”的第62/828,875号美国临时专利申请以及FNUHendry等人于2019年6月21日提交的发明名称为“视频译码中帧内随机接入点图像和前置图像的处理(Handling Intra Random Access Point And Leading Pictures In VideoCoding)”的第62/864,958号美国临时专利申请的权益，这些在先申请通过引用的方式并入本文中。

技术领域

本发明大体上涉及视频译码，具体涉及交错视频译码上下文中前置图像的译码。

背景技术

即使视频相对较短，也可能需要大量的视频数据来描述，当数据要在带宽容量受限的通信网络中进行流式传输或以其它方式传输时，这样可能会造成困难。因此，视频数据通常要先压缩，然后通过现代电信网络进行传输。由于内存资源可能有限，当在存储设备中存储视频时，该视频的大小也可能是一个问题。视频压缩设备通常在源侧使用软件和/或硬件对视频数据进行编码，然后进行传输或存储，从而减少表示数字视频图像所需的数据量。然后，对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下，需要改进压缩和解压缩技术，这些改进的技术能够在几乎不影响图像质量的情况下提高压缩比。

发明内容

在一个实施例中，本发明包括一种在解码器中实现的方法。所述方法包括：所述解码器的接收器接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像；当所述标志被设置为第一值时，处理器确定与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像；当所述标志被设置为第二值时，所述处理器确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像；基于所述标志被设置为所述第一值还是所述第二值，所述处理器按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码；所述处理器转发一个或多个解码图像，以作为解码视频序列的一部分进行显示。

通用视频编码(versatile video coding，VVC)视频系统可以采用包括IRAP图像、前置图像以及非前置图像的码流。在一些示例中，非前置图像也可以称为后置图像。IRAP图像是帧内预测编码图像，作为编码视频序列的起始。前置图像是指在显示顺序上优先于IRAP图像，但在编码顺序上是在该IRAP图像之后进行编码的图像。非前置图像/后置图像是指在显示顺序和编码顺序上均跟随IRAP图像的图像。一些视频译码系统要求前置图像在解码顺序上紧紧跟随IRAP图像，且所有非前置图像都跟随该前置图像。交错视频译码是一种在不增加流式传输带宽的情况下提高感知帧率的机制。在交错视频译码中，视频帧被划分为两个场。帧的第一场的水平行在第一时间捕获，并且在第一图像中进行译码。帧的第二场的水平行在第二时间捕获，并且在紧邻所述第一图像的第二图像中进行译码。这样，所得到的帧包括在第一时间的第一图像中的条带以及在第二时间的第二图像中的条带，这增加了运动感。VVC系统可能并没有被设计为支持交错视频。例如，交错帧可以使用IRAP图像和相邻的帧内预测编码图像来执行功能。该帧内预测编码图像被视为非前置图像/后置图像。进一步地，在使用前置图像时，该前置图像将位于该相邻的帧内预测编码图像之后。这违反了VVC约束条件，即前置图像在解码顺序上紧紧跟随IRAP图像，且所有非前置图像都跟随该前置图像。本示例包括可用于在使用前置图像的VVC系统中实现交错视频译码的标志。当所述标志被设置为第一值(例如0)时，前置图像(若有)在所有非前置图像之前。然而，编码器可以将所述标志设置为第二值(例如1)，以向解码器指示存在单个非前置图像位于IRAP图像和任意前置图像之间。在一个示例中，非前置图像可以不位于前置图像之间。所述标志可以包括在序列参数集(sequence parameter set，SPS)中，且可以应用于整个图像序列。因此，本示例包括通过使前置图像和交错视频在同一码流中一起实现来增加编码器和/或解码器的功能的标志。进一步地，本示例通过使前置图像和交错视频一起实现，提高了所得到的码流的译码效率。因此，本示例可以减少编码器侧和/或解码器侧处理器资源、存储器资源和/或网络资源的使用。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述方法还包括：当所述标志被设置为所述第二值时，所述处理器确定在解码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述码流包括SPS，其中，所述标志是从所述SPS中获取的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述标志是场序标志(field_seq_flag)。

可选地，根据上述任一方面，在该方面的另一种实现方式中，当指示编码视频序列包括表示场的图像时，所述field_seq_flag被设置为1，当指示所述编码视频序列包括表示帧的图像时，所述field_seq_flag被设置为0。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述IRAP图像包括帧的第一场，处于所述初始前置图像之前的所述非前置图像包括所述帧的第二场。

可选地，根据上述任一方面，在该方面的另一种实现方式中，对所述IRAP图像以及所述一个或多个非前置图像进行解码包括：将所述IRAP图像中的所述第一场与处于所述初始前置图像之前的所述非前置图像中的所述第二场进行交错，以创建单个帧。

在一个实施例中，本发明包括一种在编码器中实现的方法。所述方法包括：所述编码器的处理器确定视频序列的编码顺序，其中，所述视频序列包括多个图像，所述多个图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像；所述处理器将标志编码到码流中，其中，当与所述IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像时，所述标志被设置为第一值，当一个非前置图像在编码顺序上优先于与所述IRAP图像相关联的初始前置图像时，所述标志被设置为第二值；所述处理器按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中；与所述处理器耦合的存储器存储所述码流，以发送给解码器。

VVC视频系统可以采用包括IRAP图像、前置图像以及非前置图像的码流。在一些示例中，非前置图像也可以称为后置图像。IRAP图像是帧内预测编码图像，作为编码视频序列的起始。前置图像是指在显示顺序上优先于IRAP图像，但在编码顺序上是在该IRAP图像之后进行编码的图像。非前置图像/后置图像是指在显示顺序和编码顺序上均跟随IRAP图像的图像。一些视频译码系统要求前置图像在解码顺序上紧紧跟随IRAP图像，且所有非前置图像都跟随该前置图像。交错视频译码是一种在不增加流式传输带宽的情况下提高感知帧率的机制。在交错视频译码中，视频帧被划分为两个场。帧的第一场的水平行在第一时间捕获，并且在第一图像中进行译码。帧的第二场的水平行在第二时间捕获，并且在紧邻所述第一图像的第二图像中进行译码。这样，所得到的帧包括在第一时间的第一图像中的条带以及在第二时间的第二图像中的条带，这增加了运动感。VVC系统可能并没有被设计为支持交错视频。例如，交错帧可以使用IRAP图像和相邻的帧内预测编码图像来执行功能。该帧内预测编码图像被视为非前置图像/后置图像。进一步地，在使用前置图像时，该前置图像将位于该相邻的帧内预测编码图像之后。这违反了VVC约束条件，即前置图像在解码顺序上紧紧跟随IRAP图像，且所有非前置图像都跟随该前置图像。本示例包括可用于在使用前置图像的VVC系统中实现交错视频译码的标志。当所述标志被设置为第一值(例如0)时，前置图像(若有)在所有非前置图像之前。然而，编码器可以将所述标志设置为第二值(例如1)，以向解码器指示存在单个非前置图像位于IRAP图像和任意前置图像之间。在一个示例中，非前置图像可以不位于前置图像之间。所述标志可以包括在SPS中，且可以应用于整个图像序列。因此，本示例包括通过使前置图像和交错视频在同一码流中一起实现来增加编码器和/或解码器的功能的标志。进一步地，本示例通过使前置图像和交错视频一起实现，提高了所得到的码流的译码效率。因此，本示例可以减少编码器侧和/或解码器侧处理器资源、存储器资源和/或网络资源的使用。

可选地，根据上述任一方面，在该方面的另一种实现方式中，当所述标志被设置为所述第二值时，在编码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述码流包括SPS，其中，所述标志是被编码到所述SPS中的。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述标志是field_seq_flag。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述IRAP图像中的所述第一场以及处于所述初始前置图像之前的所述非前置图像中的所述第二场包括视频数据的交替行，所述视频数据表示单个交错视频帧。

在一个实施例中，本发明包括一种视频译码设备。所述视频译码设备包括：处理器、与所述处理器耦合的接收器、与所述处理器耦合的存储器以及与所述处理器耦合的发送器，其中，所述处理器、接收器、存储器和发送器用于执行根据上述任一方面所述的方法。

在一个实施例中，本发明包括一种非瞬时性计算机可读介质。所述非瞬时性计算机可读介质包括供视频译码设备使用的计算机程序产品，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质中的计算机可执行指令，当处理器执行所述计算机可执行指令时，使得所述视频译码设备执行根据上述任一方面所述的方法。

在一个实施例中，本发明包括一种解码器。所述解码器包括：接收模块，用于接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像；确定模块，用于：当所述标志被设置为第一值时，确定与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像；当所述标志被设置为第二值时，确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像；解码模块，用于基于所述标志被设置为所述第一值还是所述第二值，按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码；转发模块，用于转发一个或多个解码图像，以作为解码视频序列的一部分进行显示。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述解码器还用于执行根据上述任一方面所述的方法。

在一个实施例中，本发明包括一种编码器。所述编码器包括：确定模块，用于确定视频序列的编码顺序，其中，所述视频序列包括多个图像，所述多个图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像；编码模块，用于：将标志编码到码流中，其中，当与所述IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像时，所述标志被设置为第一值，当一个非前置图像在编码顺序上优先于与所述IRAP图像相关联的初始前置图像时，所述标志被设置为第二值；按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中；存储模块，用于存储所述码流，以发送给解码器。

可选地，根据上述任一方面，在该方面的另一种实现方式中，所述编码器还用于执行根据上述任一方面所述的方法。

为了清楚起见，任一上述实施例可以与上述其它任一或多个实施例组合，以创建在本发明范围内的新实施例。

根据以下结合附图和权利要求书的具体实施方式，将更清楚地理解这些和其它特征。

附图说明

为了更全面地理解本发明，现在参考以下结合附图和具体实施方式进行的简要描述，其中，相似的附图标记表示相似的部件。

图1是对视频信号进行译码的示例性方法的流程图；

图2是用于视频译码的示例性编码和解码(编解码)系统的示意图；

图3是示例性视频编码器的示意图；

图4是示例性视频解码器的示意图；

图5是具有前置图像的示例性编码视频序列的示意图；

图6A至图6C是共同说明交错视频译码的示例的示意图；

图7是采用交错视频译码和前置图像的示例性编码视频序列的示意图；

图8是配置为包含交错视频译码和前置图像的示例性码流的示意图；

图9是示例性视频译码设备的示意图；

图10是采用交错视频译码和前置图像将视频序列编码到码流中的示例性方法的流程图；

图11是采用交错视频译码和前置图像从码流中解码出视频序列的示例性方法的流程图；

图12是用于采用交错视频译码和前置图像将视频序列编码到码流中的示例性系统的示意图。

具体实施方式

首先应当理解，尽管下文提供一个或多个实施例的说明性实现方式，但所公开的系统和/或方法可以使用任意数量的技术来实施，无论这些技术是当前已知的还是现有的。本发明决不应限于下文所说明的说明性实现方式、附图和技术，包括本文所说明并描述的示例性设计和实现方式，而是可以在所附权利要求书的范围以及其等效物的完整范围内修改。

以下术语的定义如下所示，除非在本文相反的上下文中使用。具体地，以下定义旨在更加清晰地描述本发明。但是，术语在不同的上下文中可能会有不同的描述。因此，以下定义应当视为补充信息，而不应当视为对此处为这些术语提供的描述的任何其它定义进行限制。

码流是包括视频数据的一系列比特，这些视频数据会进行压缩以在编码器和解码器之间传输。编码器是一种用于通过编码过程将视频数据压缩为码流的设备。解码器是一种用于通过解码过程从码流中重建视频数据以进行显示的设备。标志是编码到码流中的比特或比特组，指示编码器在进行编码时所采用的机制，从而指示解码器在进行解码时将要采用的机制，以从该码流中准确地重建视频数据。帧内预测是一种参考图像本身对图像进行译码的机制，从而可以在不参考其它图像的情况下对该图像进行重建。帧间预测是一种参考一个或多个其它图像对图像进行译码的机制。帧内随机接入点(intra random accesspoint，IRAP)图像是根据帧内预测进行译码并作为编码视频序列的起点的图像。前置图像是编码顺序在相关联的IRAP图像之后，而输出顺序在该相关联的IRAP图像之前的图像。非前置图像，也可以称为后置图像，是在编码顺序和输出顺序上均跟随IRAP图像的图像。交错视频译码是一种视频译码机制，用于在第一图像中于第一时间编码视频数据的第一场，在第二图像中于第二时间编码视频数据的第二场，并将所述第一场和所述第二场组合成单个帧进行呈现，从而提供了帧率增加的效果。帧是预期在视频序列中的对应时刻向用户完整或部分显示的完整图像。图像是帧，但与交错视频相关的上下文除外，在这种情况下，图像是帧的场。参数集是码流的一部分，用于为编码视频序列的相应部分指示(signal)数据，例如标志和其它参数。场序标志(field_seq_flag)是一个标志，用于交错视频，并指示何时非前置图像的编码顺序处于IRAP图像和前置图像之间。

本文中采用以下缩略语，例如编码树块(coding tree block，CTB)、编码树单元(coding tree unit，CTU)、编码单元(coding unit，CU)、编码视频序列(coded videosequence，CVS)、联合视频专家组(Joint Video Experts Team，JVET)、运动约束分块集(motion constrained tile set，MCTS)、最大传输单元(maximum transfer unit，MTU)、网络抽象层(network abstraction layer，NAL)、图像顺序编号(picture order count，POC)、原始字节序列载荷(raw byte sequence payload，RBSP)、序列参数集(sequenceparameter set，SPS)以及工作草案(Working Draft，WD)。

许多视频压缩技术可以用于在实现最少数据丢失的情况下减小视频文件的大小。例如，视频压缩技术可以包括执行空间(例如，帧内)预测和/或时间(例如，帧间)预测来减少或去除视频序列中的数据冗余。对于基于块的视频译码，视频条带(slice)(例如，视频图像或视频图像中的一部分)可以分割成视频块，这些视频块还可以称为树块(treeblock)、编码树块(coding tree block，CTB)、编码树单元(coding tree unit，CTU)、编码单元(coding unit，CU)和/或编码节点。图像中的经帧内译码(I)条带中的视频块是相对于同一图像中的相邻块中的参考样本使用空间预测进行译码的，而图像中的经帧间译码的单向预测(P)或双向预测(B)条带中的视频块可以是相对于同一图像中的相邻块中的参考样本使用空间预测进行译码的，也可以是相对于其它参考图像中的参考样本使用时间预测进行译码的。图像(picture/image)可以称为帧(frame)，参考图像可以称为参考帧。空间预测或时间预测会产生表示图像块的预测块。残差数据表示原始图像块与预测块之间的像素差。因此，经帧间译码块是根据运动矢量和残差数据进行编码的，其中，运动矢量指向形成预测块的参考样本组成的块，残差数据表示经译码块与预测块之间的差值；而经帧内译码块是根据帧内译码模式和残差数据进行编码的。为了进一步压缩，残差数据可以从像素域变换到变换域。这会产生可以量化的残差变换系数。量化变换系数最初可以排列为二维阵列。量化变换系数可以扫描，目的是产生变换系数的一维矢量。熵译码可以用于实现进一步压缩。下文更详细地论述了这些视频压缩技术。

为了确保经编码的视频能够正确解码，视频根据对应的视频编码标准进行编码和解码。视频编码标准包括国际电信联盟(International Telecommunication Union，ITU)标准化部门(ITU Standardization Sector，ITU-T)H.261、国际标准化组织/国际电工委员会(International Organization for Standardization/InternationalElectrotechnical Commission，ISO/IEC)运动图像专家组(Motion Picture ExpertsGroup，MPEG)-1第2部分、ITU-TH.262或ISO/IEC MPEG-2第2部分、ITU-T H.263、ISO/IECMPEG-4第2部分、高级视频编码(Advanced Video Coding，AVC)(还称为ITU-T H.264或ISO/IEC MPEG-4第10部分)以及高效视频编码(High Efficiency Video Coding，HEVC)(还称为ITU-T H.265或MPEG-H第2部分)。AVC包括可分级的视频编码(Scalable Video Coding，SVC)、多视图视频编码(Multiview VideoCoding，MVC)和多视图视频编码加深度(MultiviewVideo Coding plus Depth，MVC+D)、三维(three dimension，3D)AVC(3D-AVC)等扩展版本。HEVC包括可分级的HEVC(Scalable HEVC，SHVC)、多视图HEVC(MultiviewHEVC，MV-HEVC)、3D HEVC(3D-HEVC)等扩展版本。ITU-T和ISO/IEC的联合视频专家组(jointvideo experts team，JVET)已经着手开发一种称为通用视频编码(Versatile VideoCoding，VVC)的视频编码标准。VVC包括在工作草案(Working Draft，WD)中，该工作草案包括JVET-M1001-v7。

视频译码系统可以通过使用IRAP图像和非IRAP图像来编码视频。IRAP图像是根据帧内预测进行译码的图像，用作视频序列的随机接入点。在帧内预测中，图像中的块通过参考同一图像中的其它块进行译码。这与使用帧间预测的非IRAP图像形成了鲜明对比。在帧间预测中，当前图像中的块通过参考与当前图像不同的参考图像中的其它块进行译码。由于IRAP图像是在不参考其它图像的情况下进行译码的，因此可以在不先解码任何其它图像的情况下解码该IRAP图像。因此，解码器可以在任意IRAP图像处开始解码视频序列。相反，非IRAP图像是参考其它图像进行译码的，因此解码器通常无法在非IRAP图像处开始解码视频序列。IRAP图像还可以刷新解码图像缓冲区(decoded picture buffer，DPB)。这是因为IRAP图像是编码视频序列(coded video sequence，CVS)的起点，且CVS中的图像不参考先前CVS中的图像。因此，IRAP图像还可以停止与帧间预测相关的译码错误，因为此类错误不能通过IRAP图像传播。然而，从数据大小的角度来看，IRAP图像明显大于非IRAP图像。因此，视频序列通常包括许多非IRAP图像，其中穿插较少数量的IRAP图像，以平衡译码效率与功能性。例如，60帧的CVS可以包括一个IRAP图像和59个非IRAP图像。因此，IRAP图像降低了码流中的压缩效率。此外，码流中存在IRAP图像会导致码率激增。对压缩效率造成这种不良影响的一部分原因在于帧内预测比帧间预测使用明显更多的位来表示图像。此外，IRAP图像可以刷新解码过程并从DPB中删除参考图像。这减少了对IRAP图像之后的图像进行译码时用于帧间预测的可用参考图像的数量，因此暂时降低了帧间预测过程的效率。

视频译码系统也可以使用前置图像。前置图像是编码顺序在IRAP图像之后，而显示顺序在IRAP图像之前的图像。当可以从IRAP图像中有效地预测相应的图像时，即使该图像应当在IRAP图像之前显示，也可以使用前置图像。此图像在编码顺序上位于IRAP图像之后，使得IRAP图像可以用作帧间预测的参考图像。然后，解码器可以在进行显示之前交换前置图像和IRAP图像的顺序，以创建不同的显示顺序。前置图像可以包括跳过随机接入前置(random access skipped leading，RASL)图像和可解码随机接入前置(random accessdecodableleading，RADL)图像。RASL图像也可能依赖于IRAP图像之前的图像，当IRAP图像用作随机接入点时，RASL图像会被跳过。这是因为这种其它图像没有被解码，因此当从IRAP图像开始解码时，不能作为这种其它参考图像。RADL图像只参考IRAP图像或者该RADL图像和IRAP图像之间的其它图像。因此，即使在IRAP图像用作随机接入点时，RADL图像也会被解码。这是因为即使是从IRAP图像开始编码，RADL图像可能参考的任何图像都保证会被解码。视频译码系统可能要求前置图像在解码顺序上紧紧跟随它们所参考的IRAP图像。然后，任意相关联的后置图像在解码顺序上跟随该前置图像。

视频译码采用了大量的机制。例如，交错译码将帧译码为多个场和多个图像。例如，帧可以划分为偶数场和奇数场。交错帧的偶数场包含该帧的编号为偶数的水平行中的样本，交错帧的奇数场包含该帧的编号为奇数的水平行中的样本。在一个具体示例中，偶数场可以在第一时间捕获并存储在第一图像中。然后，奇数场可以在第二时间捕获并存储在第二图像中。将这两个场包括在同一帧中会增加运动感。因此，交错译码在不增加视频序列的带宽的情况下产生了帧率增加的效果。标准化的译码系统可能本身不支持交错译码。然而，在某些系统中，可以通过在视频可用性信息(video usability information，VUI)中使用语法元素来指示码流是交错的经编码码流，从而管理交错译码。这种语法元素可以包括field_seq_flag和general_frame_only_constraint_flag。

采用前置图像的标准化视频译码系统未配置为支持交错视频译码。例如，VVC和HEVC可以采用要求IRAP图像后面跟随着前置图像(若有)的编码顺序。然后，该前置图像后面跟随着非前置图像/后置图像。这种顺序避免了非前置图像位于IRAP图像和关联的前置图像之间。然而，在交错视频译码上下文中，IRAP帧是在两个图像中的两个场之间进行划分的。具有第一场的第一图像被编码为IRAP图像。具有第二场的第二图像被编码为非前置图像/后置图像，而不是IRAP图像，因为第二图像不能作为随机接入点。这是因为需要这两个图像才能开始解码，因此不能跳过第一图像。组成IRAP帧的这两个图像应当相邻放置，以实现高效译码。然而，将具有第二IRAP场的非前置图像与具有第一IRAP场的IRAP图像相邻放置违反了VVC和HEVC编码顺序。这是因为这样的放置方式将非前置图像放在了任意前置图像之前。

本文公开了用于配置使用前置图像来编码交错视频的视频译码系统的机制。例如，可以利用标志在使用前置图像的VVC系统中实现交错视频译码。当IRAP图像和任意前置图像之间可能存在非前置图像时，可以使用所述标志向解码器进行指示。解码器可以读取所述标志并根据需要调整顺序，以支持交错视频译码。当所述标志被设置为第一值(例如0)时，前置图像(若有)在所有非前置图像之前。然而，编码器可以将所述标志设置为第二值(例如1)，以向解码器指示存在单个非前置图像位于IRAP图像和任意前置图像之间。在一个示例中，非前置图像可以不位于前置图像之间。例如，可以使用场序标志(field_seq_flag)来实现此目的。所述标志可以包括在序列参数集(sequence parameter set，SPS)中，且可以应用于整个图像序列。需要说明的是，在交错视频上下文中，帧可以包括多个图像(例如，两个图像)。然而，在交错视频上下文之外，帧包括单个图像，因此术语“帧”和术语“图像”可以互换使用。因此，除非是在交错译码的上下文中使用，否则以下术语“帧”和“图像”的使用不应被视为限制。

图1是对视频信号进行译码的示例性操作方法100的流程图。具体地，视频信号是在编码器侧进行编码的。编码过程通过采用各种机制来压缩视频信号，以减小视频文件。文件较小，压缩视频文件可以发送给用户，同时降低相关带宽开销。然后，解码器对压缩视频文件进行解码，以重建原始视频信号，用于向终端用户显示。解码过程通常是编码过程的逆过程，以使解码器重建的视频信号可以与编码器侧的视频信号保持一致。

在步骤101中，将视频信号输入到编码器中。例如，视频信号可以是存储在存储器中的未压缩视频文件。又如，视频文件可以由摄像机等视频捕获设备捕获，并且进行编码以支持视频的直播流传输。视频文件可以包括音频分量和视频分量。视频分量包括一系列图像帧。这些图像帧按顺序观看时，给人以运动的视觉效果。这些帧包括以光表示的像素，在本文中称为亮度分量(或亮度样本)，还包括以颜色表示的像素，称为色度分量(或色度样本)。在一些示例中，这些帧还可以包括深度值，以支持三维观看。

在步骤103中，将视频分割成块。分割包括将每一帧中的像素细分成方块和/或矩形块进行压缩。例如，在高效视频编码(High Efficiency Video Coding，HEVC)(还称为H.265和MPEG-H第2部分)中，可以首先将帧划分成编码树单元(coding tree unit，CTU)，它们是预定义大小(例如，64个像素×64个像素)的块。这些CTU包括亮度样本和色度样本。编码树可以用于将CTU划分成块，然后，重复细分这些块，直到获得支持进一步编码的配置。例如，帧的亮度分量可以细分，直到各个块包括相对均匀的亮度值。此外，帧的色度分量可以细分，直到各个块包括相对均匀的色度值。因此，分割机制因视频帧的内容而异。

在步骤105中，采用各种压缩机制对在步骤103中分割得到的图像块进行压缩。例如，可以采用帧间预测和/或帧内预测。帧间预测是为了利用一般场景中的对象往往出现在连续帧中这一事实而设计的。这样一来，描述参考帧中的对象的块不需要在相邻帧中重复描述。具体地，一个对象(例如一张桌子)可以在多个帧中保持在固定位置上。因此，该桌子被描述一次，而且相邻帧可以参考回参考帧。模式匹配机制可以用于在多个帧上匹配对象。此外，由于对象移动或相机移动等原因，移动对象可以跨多个帧表示。在一个具体示例中，视频可以在多个帧上显示跨屏幕移动的汽车。运动矢量可以用于描述这种移动。运动矢量是一个二维矢量，提供对象在一个帧中的坐标到该对象在参考帧中的坐标的偏移。因此，帧间预测可以将当前帧中的图像块编码为运动矢量集，表示当前帧中的图像块与参考帧中的对应块的偏移。

帧内预测对公共帧中的块进行编码。帧内预测利用亮度分量和色度分量往往聚集在一个帧中这一事实。例如，一棵树某个部分的一片绿色往往与类似的几片绿色相邻。帧内预测采用多种方向性预测模式(例如，HEVC中有33种)、平面模式和直流(direct current，DC)模式。这些方向性模式表示当前块的样本与对应方向上的相邻块的样本相似/相同。平面模式表示一行/列(例如，平面)上的一系列块可以根据该行的边缘上的相邻块进行插值。平面模式实际上通过采用变化值的相对恒定的斜率表示光/颜色跨行/列的平稳过渡。DC模式用于边界平滑，并表示块与所有相邻块的样本的平均值相似/相同，这些相邻块与方向性预测模式的角度方向相关。因此，帧内预测块可以将图像块表示为各种关系预测模式值而不是表示为实际值。此外，帧间预测块可以将图像块表示为运动矢量值而不是表示为实际值。在任一种情况下，预测块在一些情况下可能都无法准确表示图像块。所有差值都存储在残差块中。可以对残差块应用变换以进一步压缩文件。

在步骤107中，可以应用各种滤波技术。在HEVC中，滤波器是根据环内滤波方案应用的。上文描述的基于块的预测可能会在解码器侧产生块状图像。此外，基于块的预测方案可以对块进行编码，然后重建经编码块，以便后续用作参考块。环内滤波方案迭代地将噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和样本自适应偏移(sample adaptiveoffset，SAO)滤波器应用于块/帧。这些滤波器减少了块伪影，这样可以准确重建经编码文件。此外，这些滤波器减少了重建参考块中的伪影，这样伪影不太可能在根据重建参考块编码的后续块中产生其它伪影。

一旦视频信号完成分割、压缩和滤波，则在步骤109中，将所得数据编码到码流中。码流包括上文描述的数据以及支持在解码器侧进行适当的视频信号重建所需要的任何指示数据。例如，这些数据可以包括分割数据、预测数据、残差块和提供译码指令给解码器的各种标志。码流可以存储在存储器中，以便根据请求向解码器发送。码流还可以广播和/或组播到多个解码器。创建码流是一个迭代过程。因此，步骤101、步骤103、步骤105、步骤107和步骤109可以在多个帧和块中连续和/或同时执行。图1所示的顺序是为了清楚和便于描述而呈现的，并非旨在将视频译码过程限制于特定顺序。

在步骤111中，解码器接收码流并开始解码过程。具体地，解码器采用熵解码方案将码流转换为对应的语法数据和视频数据。在步骤111中，解码器采用码流中的语法数据来确定帧的分割部分。分割应该与步骤103中的块分割的结果匹配。下面描述在步骤111中采用的熵编码/解码。编码器在压缩过程中做出许多选择，例如，根据一个或多个输入图像中的值的空间放置从若干个可能选择中选择块分割方案。指示确切的选择可能会采用大量的位元(bin)。本文所使用的“位元”是一个作为变量的二进制值(例如，可能因内容而异的比特值)。熵编码使得编码器丢弃任何明显不适合特定情况的选项，从而留下一组可用选项。然后，为每个可用选项分配一个码字。码字的长度取决于可用选项的数量(例如，一个二元符号对应两个选项，两个二元符号对应三到四个选项，以此类推)。然后，编码器对所选选项的码字进行编码。这种方案减小了码字，这是因为码字与预期的一样大，从而唯一地指示从可用选项的小子集中进行选择，而不是唯一地指示从所有可能选项的可能大集合中进行选择。然后，解码器通过以与编码器类似的方式确定可用选项集合来对该选择进行解码。通过确定可用选项集合，解码器可以读取码字并确定编码器做出的选择。

在步骤113中，解码器执行块解码。具体地，解码器采用逆变换，以生成残差块。然后，解码器采用残差块和对应的预测块，以根据分割来重建图像块。预测块可以包括编码器在步骤105中生成的帧内预测块和帧间预测块。接着，根据在步骤111中确定的分割数据将重建图像块放置在重建视频信号的帧中。还可以通过上文描述的熵编码在码流中指示用于步骤113的语法。

在步骤115中，以类似于编码器侧的步骤107的方式对重建视频信号的帧执行滤波。例如，噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和SAO滤波器可以应用于帧，以去除块效应。一旦对帧进行了滤波，则在步骤117中，可以将视频信号输出到显示器，以供终端用户观看。

图2为用于视频译码的示例性编码和解码(编解码)系统200的示意图。具体地，编解码系统200提供功能来支持实现操作方法100。编解码系统200广义地用于描述编码器和解码器侧都使用的组件。编解码系统200接收视频信号并对视频信号进行分割，如结合操作方法100中的步骤101和步骤103所述，得到分割视频信号201。然后，编解码系统200在充当编码器时将分割视频信号201压缩到经编码码流中，如结合方法100中的步骤105、步骤107和步骤109所述。编解码系统200在充当解码器时从码流中生成输出视频信号，如结合操作方法100中的步骤111、步骤113、步骤115和步骤117所述。编解码系统200包括通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、帧内预测组件217、运动补偿组件219、运动估计组件221、缩放和逆变换组件229、滤波器控制分析组件227、环内滤波器组件225、解码图像缓冲区组件223以及标头格式以及上下文自适应二进制算术编码(contextadaptive binary arithmetic coding，CABAC)组件231。这些组件如图所示耦合。在图2中，黑线表示待编码/解码数据的移动，而虚线表示控制其它组件操作的控制数据的移动。编解码系统200中的组件都可以存在于编码器中。解码器可以包括编解码系统200中的组件的子集。例如，解码器可以包括帧内预测组件217、运动补偿组件219、缩放和逆变换组件229、环内滤波器组件225以及解码图像缓冲区组件223。下面对这些组件进行描述。

分割视频信号201是一个捕获到的已经通过编码树分割成像素块的视频序列。编码树采用各种划分模式将像素块细分成较小的像素块。然后，这些块可以进一步细分成更小的块。这些块可以称为编码树上的节点。较大的父节点划分成较小的子节点。节点进行细分的次数称为节点/编码树的深度。在一些情况下，划分得到的块包括在编码单元(codingunit，CU)中。例如，CU可以是CTU的子部分，包括亮度块、一个或多个红色差色度(Cr)块和一个或多个蓝色差色度(Cb)块以及CU的对应语法指令。划分模式可以包括二叉树(binarytree，BT)、三叉树(triple tree，TT)和四叉树(quadtree，QT)，用于根据所采用的划分模式将节点分别分割成不同形状的两个、三个或四个子节点。将分割视频信号201转发给通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、滤波器控制分析组件227以及运动估计组件221进行压缩。

通用译码器控制组件211用于根据应用约束条件做出与将视频序列中的图像编码到码流中相关的决策。例如，通用译码器控制组件211管理码率/码流大小相对于重建质量的优化。可以根据存储空间/带宽可用性和图像分辨率请求做出这些决策。通用译码器控制组件211还根据传输速度管理缓冲区利用率，以缓解缓存欠载和超载问题。为了解决这些问题，通用译码器控制组件211管理由其它组件进行的分割、预测和滤波。例如，通用译码器控制组件211可以动态提高压缩复杂度以提高分辨率和增加带宽利用率，或者降低压缩复杂度以降低分辨率和带宽利用率。因此，通用译码器控制组件211控制编解码系统200中的其它组件来平衡视频信号重建质量与码率问题。通用译码器控制组件211生成控制数据，这些控制数据用于控制其它组件的操作。还将控制数据转发给标头格式以及CABAC组件231，以编码到码流中，从而指示解码器进行解码时使用的参数。

还将分割视频信号201发送给运动估计组件221和运动补偿组件219进行帧间预测。可以将分割视频信号201的帧或条带划分成多个视频块。运动估计组件221和运动补偿组件219相对于一个或多个参考帧中的一个或多个块对所接收到的视频块进行帧间预测译码，以提供时间预测。编解码系统200可以执行多个译码回合，以便为每个视频数据块选择合适的译码模式，等等。

运动估计组件221和运动补偿组件219可以高度集成，但出于概念目的，单独说明运动估计组件221和运动补偿组件219。由运动估计组件221执行的运动估计是生成运动矢量的过程，其中，这些运动矢量用于估计视频块的运动。例如，运动矢量可以表示经译码对象相对于预测块的位移。预测块是被发现在像素差方面与待译码块高度匹配的块。预测块还可以称为参考块。这种像素差可以通过绝对差异和(sum of absolute differences，SAD)、平方差异和(sum of squared differences，SSD)或其它差异度量来确定。HEVC采用若干个经译码对象，包括CTU、编码树块(coding tree block，CTB)和CU。例如，可以将CTU划分成多个CTB，然后可以将CTB划分成CB，以包括在CU中。可以将CU编码为包括预测数据的预测单元(prediction unit，PU)和/或包括CU的变换残差数据的变换单元(transform unit，TU)。运动估计组件221使用率失真分析作为率失真优化过程的一部分来生成运动矢量、PU和TU。例如，运动估计组件221可以确定当前块/帧的多个参考块、多个运动矢量等，并且可以选择具有最佳率失真特性的参考块、运动矢量等。最佳率失真特性平衡了视频重建的质量(例如，压缩造成的数据丢失量)和译码效率(例如，最终编码的大小)。

在一些示例中，编解码系统200可以计算存储在解码图像缓冲区组件223中的参考图像的子整数像素位置的值。例如，视频编解码系统200可以对参考图像的四分之一像素位置、八分之一像素位置或其它分数像素位置的值进行插值。因此，运动估计组件221可以相对于整像素位置和分数像素位置执行运动搜索，并输出具有分数像素精度的运动矢量。运动估计组件221通过将PU的位置与参考图像的预测块的位置进行比较，计算经帧间译码条带中的视频块的PU的运动矢量。运动估计组件221将计算得到的运动矢量作为运动数据输出到标头格式以及CABAC组件231进行编码，并作为运动数据输出到运动补偿组件219。

运动补偿组件219执行的运动补偿可以涉及根据运动估计组件221所确定的运动矢量获取或生成预测块。同样，在一些示例中，运动估计组件221和运动补偿组件219可以在功能上集成。在接收到当前视频块的PU的运动矢量时，运动补偿组件219可以定位运动矢量指向的预测块。然后，从正在译码的当前视频块的像素值中减去预测块的像素值，得到像素差值，从而形成残差视频块。一般而言，运动估计组件221相对于亮度分量执行运动估计，而运动补偿组件219将根据亮度分量计算得到的运动矢量用于色度分量和亮度分量。将预测块和残差块转发给变换缩放和量化组件213。

还将分割视频信号201发送给帧内估计组件215和帧内预测组件217。与运动估计组件221和运动补偿组件219一样，帧内估计组件215和帧内预测组件217可以高度集成，但出于概念目的，单独说明帧内估计组件215和帧内预测组件217。帧内估计组件215和帧内预测组件217相对于当前帧中的各块对当前块进行帧内预测，以替代如上所述的由运动估计组件221和运动补偿组件219在各帧之间执行的帧间预测。具体地，帧内估计组件215确定帧内预测模式，用于对当前块进行编码。在一些示例中，帧内估计组件215从多个测试的帧内预测模式中选择合适的帧内预测模式来对当前块进行编码。然后，将选定的帧内预测模式转发给标头格式以及CABAC组件231进行编码。

例如，帧内估计组件215对各种测试的帧内预测模式进行率失真分析来计算率失真值，并在测试的模式中选择具有最佳率失真特性的帧内预测模式。率失真分析通常确定经编码块与经编码以产生经编码块的原始未编码块之间的失真(或误差)量，以及确定用于产生经编码块的码率(例如，比特数)。帧内估计组件215根据各种经编码块的失真和速率计算比率，以确定表现出块的最佳率失真值的帧内预测模式。另外，帧内估计组件215可以用于根据率失真优化(rate-distortion optimization，RDO)，使用深度建模模式(depthmodeling mode，DMM)对深度图像的深度块进行译码。

帧内预测组件217在编码器上实现时，可以根据由帧内估计组件215确定的选定帧内预测模式从预测块中生成残差块，或者在解码器上实现时，可以从码流中读取残差块。残差块包括预测块与原始块之间的差值，表示为矩阵。然后，将残差块转发给变换缩放和量化组件213。帧内估计组件215和帧内预测组件217可以对亮度分量和色度分量进行操作。

变换缩放和量化组件213用于进一步压缩残差块。变换缩放和量化组件213将离散余弦变换(discrete cosine transform，DCT)、离散正弦变换(discrete sine transform，DST)等变换或者概念上类似的变换应用于残差块，从而产生包括残差变换系数值的视频块。还可以使用小波变换、整数变换、子频带变换或其它类型的变换。变换可以将残差信息从像素值域转换到变换域，例如频域。变换缩放和量化组件213还用于根据频率等对变换残差信息进行缩放。这种缩放涉及将缩放因子应用于残差信息，以便在不同的粒度下量化不同的频率信息，这可能会影响重建视频的最终视觉质量。变换缩放和量化组件213还用于量化变换系数以进一步降低码率。量化过程可以减小与部分或全部系数相关的位深度。量化程度可以通过调整量化参数来修改。在一些示例中，变换缩放和量化组件213随后可以对包括量化变换系数的矩阵进行扫描。将量化变换系数转发给标头格式以及CABAC组件231，以编码到码流中。

缩放和逆变换组件229进行与变换缩放和量化组件213相反的操作以支持运动估计。缩放和逆变换组件229应用逆缩放、逆变换和/或反量化以重建像素域中的残差块，例如，后续用作参考块。该参考块可以成为另一当前块的预测块。运动估计组件221和/或运动补偿组件219可以通过将残差块添加回对应的预测块来计算参考块，以用于后续块/帧的运动估计。将滤波器应用于重建参考块，以减少在缩放、量化和变换期间产生的伪影。当预测后续块时，这些伪影可能会使预测不准确(并产生额外的伪影)。

滤波器控制分析组件227和环内滤波器组件225将滤波器应用于残差块和/或重建图像块。例如，可以将来自缩放和逆变换组件229的变换残差块与来自帧内预测组件217和/或运动补偿组件219的对应预测块组合以重建原始图像块。然后，可以将滤波器应用于重建图像块。在一些示例中，滤波器可以转而应用于残差块。如同图2中的其它组件，滤波器控制分析组件227和环内滤波器组件225高度集成，可以一起实现，但出于概念目的，单独描述滤波器控制分析组件227和环内滤波器组件225。将应用于重建参考块的滤波器应用于特定空间区域，这些滤波器包括多个参数以调整使用这些滤波器的方式。滤波器控制分析组件227对重建参考块进行分析，以确定需要使用这些滤波器的位置并设置对应的参数。将这些数据作为滤波器控制数据转发给标头格式以及CABAC组件231进行编码。环内滤波器组件225根据滤波器控制数据应用这些滤波器。这些滤波器可以包括去块效应滤波器、噪声抑制滤波器、SAO滤波器和自适应环路滤波器。这些滤波器可以根据示例应用于空域/像素域(例如，针对重建像素块)或频域中。

当作为编码器操作时，将经滤波的重建图像块、残差块和/或预测块存储在解码图像缓冲区组件223中，以供后续用于运动估计，如上所述。当作为解码器操作时，解码图像缓冲区组件223存储经重建和经滤波的块并将其作为输出视频信号的一部分转发给显示器。解码图像缓冲区组件223可以是任何能够存储预测块、残差块和/或重建图像块的存储设备。

标头格式以及CABAC组件231从编解码系统200的各种组件接收数据，并将这些数据编码到经译码码流中，以发送给解码器。具体地，标头格式以及CABAC组件231生成各种标头以对控制数据(例如通用控制数据和滤波器控制数据)进行编码。此外，将预测数据(包括帧内预测数据和运动数据)以及以量化变换系数数据为形式的残差数据都编码到码流中。最终的码流包括解码器重建原始分割视频信号201所需要的所有信息。这些信息还可以包括帧内预测模式索引表(还称为码字映射表)、各种块的编码上下文的定义、最可能的帧内预测模式的指示、分割信息的指示等。这些数据可以采用熵编码进行编码。例如，这些信息可以采用上下文自适应可变长度编码(context adaptive variable length coding，CAVLC)、CABAC、基于语法的上下文自适应二进制算术编码(syntax-based context-adaptive binary arithmetic coding，SBAC)、概率区间分割熵(probability intervalpartitioning entropy，PIPE)编码或其它熵编码技术来编码。在熵编码之后，可以将经编码码流发送给另一设备(例如，视频解码器)或存档以供后续发送或检索。

图3为示例性视频编码器300的框图。视频编码器300可以用于实现编解码系统200的编码功能和/或执行操作方法100中的步骤101、步骤103、步骤105、步骤107和/或步骤109。编码器300对输入视频信号进行分割，得到基本上类似于分割视频信号201的分割视频信号301。然后，通过编码器300中的组件压缩分割视频信号301并将其编码到码流中。

具体地，将分割视频信号301转发给帧内预测组件317进行帧内预测。帧内预测组件317可以基本上类似于帧内估计组件215和帧内预测组件217。还将分割视频信号301转发给运动补偿组件321，以根据解码图像缓冲区组件323中的参考块进行帧间预测。运动补偿组件321可以基本上类似于运动估计组件221和运动补偿组件219。将来自帧内预测组件317和运动补偿组件321的预测块和残差块转发给变换和量化组件313进行残差块的变换和量化。变换和量化组件313可以基本上类似于变换缩放和量化组件213。将变换量化残差块和对应的预测块(连同相关的控制数据)转发给熵编码组件331，以编码到码流中。熵编码组件331可以基本上类似于标头格式以及CABAC组件231。

还将变换量化残差块和/或对应的预测块从变换和量化组件313转发给逆变换和反量化组件329，以重建为参考块供运动补偿组件321使用。逆变换和反量化组件329可以基本上类似于缩放和逆变换组件229。根据示例，还将环内滤波器组件325中的环内滤波器应用于残差块和/或重建参考块。环内滤波器组件325可以基本上类似于滤波器控制分析组件227和环内滤波器组件225。环内滤波器组件325可以包括多个滤波器，如结合环内滤波器组件225所述。然后，将经滤波的块存储在解码图像缓冲区组件323中，以作为参考块供运动补偿组件321使用。解码图像缓冲区组件323可以基本上类似于解码图像缓冲区组件223。

图4为示例性视频解码器400的框图。视频解码器400可以用于实现编解码系统200的解码功能和/或执行操作方法100中的步骤111、步骤113、步骤115和/或步骤117。解码器400从编码器300等接收码流，并根据码流生成重建输出视频信号，以向终端用户显示。

码流由熵解码组件433接收。熵解码组件433用于执行熵解码方案，例如CAVLC、CABAC、SBAC、PIPE解码或其它熵解码技术。例如，熵解码组件433可以使用标头信息来提供上下文以解析在码流中编码为码字的附加数据。经解码信息包括对视频信号进行解码所需的任何信息，例如，通用控制数据、滤波器控制数据、分割信息、运动数据、预测数据和残差块中的量化变换系数。将量化变换系数转发给逆变换和反量化组件429，以重建成残差块。逆变换和反量化组件429可以类似于逆变换和反量化组件329。

将重建残差块和/或预测块转发给帧内预测组件417，以根据帧内预测操作重建为图像块。帧内预测组件417可以类似于帧内估计组件215和帧内预测组件217。具体地，帧内预测组件417使用预测模式来定位帧中的参考块，并将残差块应用到上述结果中以重建帧内预测图像块。将重建帧内预测图像块和/或残差块以及对应的帧间预测数据通过环内滤波器组件425转发给解码图像缓冲区组件423。解码图像缓冲区组件423和环内滤波器组件425可以基本上分别类似于解码图像缓冲区组件223和环内滤波器组件225。环内滤波器组件425对重建图像块、残差块和/或预测块进行滤波。这些信息存储在解码图像缓冲区组件423中。将来自解码图像缓冲区组件423的重建图像块转发给运动补偿组件421，以进行帧间预测。运动补偿组件421可以基本上类似于运动估计组件221和/或运动补偿组件219。具体地，运动补偿组件421使用参考块的运动矢量来生成预测块，并将残差块应用于上述结果中以重建图像块。还可以通过环内滤波器组件425将所得到的重建块转发给解码图像缓冲区组件423。解码图像缓冲区组件423继续存储其它重建图像块。这些重建图像块可以通过分割信息重建为帧。这些帧还可以放置在一个序列中。该序列作为重建输出视频信号输出到显示器。

图5是具有前置图像的示例性CVS 500的示意图。例如，根据方法100，CVS 500可以由编解码系统200和/或编码器300等编码器进行编码。此外，CVS 500可以由编解码系统200和/或解码器400等解码器进行解码。CVS 500包括以解码顺序508进行译码的图像。解码顺序508是图像在码流中放置的顺序。然后，CVS 500中的图像以显示顺序510输出。显示顺序510是应当被解码器用来显示图像以使得所产生的视频正确显示的顺序。例如，CVS 500中的图像通常可以按显示顺序510放置。然而，某些图像可以移动到不同的位置以提高译码效率，例如通过将类似的图像放置在更靠近的位置以支持帧间预测。以这种方式移动这些图像会得到解码顺序508。在所示的示例中，图像按照解码顺序508从0到4进行索引。在显示顺序510中，索引2和索引3处的图像已经移动到了索引0处的图像前面。

CVS 500包括IRAP图像502。IRAP图像502是根据帧内预测译码的图像，用作CVS500的随机接入点。具体地，IRAP图像502中的块通过参考IRAP图像502中的其它块进行译码。由于IRAP图像502是在不参考其它图像的情况下进行译码的，因此可以在不先解码任何其它图像的情况下解码IRAP图像502。因此，解码器可以在IRAP图像502处开始解码CVS500。此外，IRAP图像502可以使得DPB被刷新。例如，在IRAP图像502之后显示的大多数图像可以不依赖于IRAP图像502之前的图像(例如，索引为0的图像)进行帧间预测。因此，一旦IRAP图像502被解码，图像缓冲区就可以被刷新。这具有停止任何与帧间预测相关的译码错误的效果，因为这些错误不能通过IRAP图像502传播。IRAP图像502可以包括各种类型的图像。例如，IRAP图像可以译码为即时解码器刷新(instantaneous decoder refresh，IDR)或清理随机接入(clean random access，CRA)。IDR是一个帧内译码图像，它开始新的CVS 500并刷新图像缓冲区。CRA是一个帧内译码图像，它充当随机接入点，而不开始新的CVS 500或刷新图像缓冲区。这样，与CRA相关联的前置图像504可以参考CRA之前的图像，而与IDR相关联的前置图像504可以不参考IDR之前的图像。

CVS 500还包括各种非IRAP图像。这些非IRAP图像包括前置图像504和后置图像506。前置图像504是在解码顺序508上位于IRAP图像502之后，但在显示顺序510上位于IRAP图像502之前的图像。后置图像506在解码顺序508和显示顺序510上均位于IRAP图像502之后。在大多数情况下，前置图像504和后置图像506都是根据帧间预测进行译码的。后置图像506是参考IRAP图像502或位于IRAP图像502之后的图像进行译码的。因此，一旦IRAP图像502被解码，后置图像506总是可以被解码。前置图像504可以包括跳过随机接入前置(random access skipped leading，RASL)图像和可解码随机接入前置(random accessdecodable leading，RADL)图像。RASL图像通过参考IRAP图像502之前的图像进行译码，但是在IRAP图像502之后的位置进行译码。由于RASL图像依赖于之前的图像，因此当解码器在IRAP图像502处开始解码时，RASL图像不能被解码。因此，当IRAP图像502用作随机接入点时，RASL图像被跳过并且不被解码。但是，当解码器使用之前的IRAP图像(在索引0之前且未显示)作为随机接入点时，RASL图像会被解码和显示。RADL图像是参考IRAP图像502和/或IRAP图像502之后的图像进行译码的，但在显示顺序上位于IRAP图像502之前。由于RADL图像不依赖于IRAP图像502之前的图像，因此当IRAP图像502是随机接入点时，RADL图像可以被解码和显示。

图6A至图6C是共同说明交错视频译码的示例的示意图。交错视频译码从第一图像601和第二图像602(如图6A和图6B所示)中生成交错视频帧600(如图6C所示)。例如，当编码包含交错视频帧600的视频是方法100的一部分时，编解码系统200和/或编码器300等编码器可以采用交错视频译码。此外，编解码系统200和/或解码器400等解码器可以解码包括交错视频帧600的视频。另外，交错视频帧600可以被编码到CVS中，例如CVS 500，以下结合图7会更详细地进行讨论。

在执行交错视频译码时，第一场610在第一时间被捕获并编码到第一图像601中，如图6A所示。第一场610包括视频数据的水平行。具体地，第一场610中的视频数据的水平行从第一图像601的左边界延伸到第一图像601的右边界。然而，第一场610中省略了视频数据的交替行。在一种示例性实现方式中，第一场610包含视频捕获设备在第一时间捕获的视频数据的一半。

如图6B所示，第二场612在第二时间被捕获并编码到第二图像602中。例如，第二时间可以紧随第一时间之后，且二者间隔基于帧率设置的值，其中，该帧率是为视频设置的帧率。例如，在被设置为以15帧每秒(frames per second，FPS)的帧率显示的视频中，第二时间可以在第一时间之后的十五分之一秒处。如图所示，第二场612包括与第一图像601的第一场610的水平行互补的视频数据的水平行。具体地，第二场612中的视频数据的水平行从第二图像602的左边界延伸到第二图像602的右边界。第二场612包含第一场610中省略的水平行。此外，第二场612中省略了包含在第一场610中的水平行。

第一图像601的第一场610和第二图像602的第二场612可以被组合，以作为交错视频帧600在解码器侧显示，如图6C所示。具体地，交错视频帧600包含在第一时间捕获的第一图像601的第一场610以及在第二时间捕获的第二图像602的第二场612。这种组合具有强调和/或夸大运动的视觉效果。当作为视频的一部分进行显示时，一系列交错视频帧600会产生如下效果：视频以增加的帧率进行编码，而不需要实际编码额外的帧。这样，采用交错视频帧600的交错视频译码可以增加视频的有效帧率，而不会增加视频数据的大小。因此，交错视频译码可以提高经编码视频序列的译码效率。

图7是采用交错视频译码(例如，为了创建交错视频帧600)和前置图像的示例性CVS 700的示意图。CVS 700基本上类似于CVS 500，但被修改为使用场来编码图像，例如第一图像601和第二图像602，同时保留前置图像。例如，根据方法100，CVS 700可以由编解码系统200和/或编码器300等编码器进行编码。此外，CVS 700可以由编解码系统200和/或解码器400等解码器进行解码。

CVS 700具有解码顺序708和显示顺序710，它们分别以基本上类似于解码顺序508和显示顺序510的方式操作。CVS 700还包含IRAP图像702、前置图像704和后置图像706，它们类似于IRAP图像502、前置图像504和后置图像506。区别在于，IRAP图像702、前置图像704和后置图像706都是以基本上类似于第一场610和第二场612的方式使用场进行译码的，如图6A至图6C中所述。因此，每帧包括两个图像。相应地，CVS 700包含的图像数量是CVS 500包含的图像数量的两倍。然而，CVS 700包含的数据量与CVS 500包含的数据量大致相同，因为CVS 700的每个图像中省略了帧的一半。

CVS 700存在的问题是，IRAP图像702是通过包括帧内预测编码数据的第一场来编码的。然后，帧内预测编码数据的第二场包括在非前置图像703中。非前置图像703不是IRAP图像702，因为解码器不能在非前置图像703处开始解码CVS 700。这是因为这样做将会省略与IRAP图像702相关联的帧的一半。这会造成问题，因为采用VVC的视频译码系统可能被限制为按照解码顺序708将前置图像704放置在紧随IRAP图像702的位置。

在本发明中，VVC系统可以采用CVS 700。具体来说，可以发送标志以指示何时单个非前置图像703可以位于IRAP图像702和前置图像704之间。视频系统仍然可以被限制以避免非前置图像703和/或后置图像706位于前置图像704之间。相应地，该标志可以指示解码顺序708为：IRAP图像702、单个非前置图像703、任意前置图像704(例如，前置图像704是可选的，并且在一些示例中可以省略)以及一个或多个后置图像706。因此，该标志可以向解码器指示是期望CVS 500还是CVS 700。在一些示例中，SPS中的field_seq_flag可用于实现如下所述的目的。

图8是配置为包含交错视频译码和前置图像的示例性码流800的示意图。例如，码流800可以由编解码系统200和/或编码器300生成，以由编解码系统200和/或解码器400根据方法100进行解码。进一步地，码流800可以包括CVS 500和/或CVS 700。因此，码流800可以包括第一图像601和第二图像602，所述第一图像601和第二图像602可以被组合以创建交错视频帧600。进一步地，码流800可以包括前置图像504和/或前置图像704。

码流800包括SPS 810、多个图像参数集(picture parameter set，PPS)811、多个条带头815以及图像数据820。SPS 810包括码流800中包括的编码视频序列中的所有图像共用的序列数据。这些数据可以包括图像大小、位深度、译码工具参数、码率限制等。PPS 811包含应用于整个图像的参数。因此，视频序列中的每个图像可以参考PPS 811。需要说明的是，虽然每个图像都参考PPS 811，但是在一些示例中，单个PPS 811可以包含多个图像的数据。例如，多个类似的图像可以根据类似的参数进行译码。在这种情况下，单个PPS 811可以包括这些类似图像的数据。PPS 811可以表示可用于对应图像中条带的译码工具、量化参数、偏移等。条带头815包括图像中的每个条带特有的参数。因此，视频序列中的每个条带可以有一个条带头815。条带头815可以包含条带类型信息、图像顺序编号(picture ordercount，POC)、参考图像列表、预测权重、分块入口点、去块效应参数等。需要说明的是，在一些上下文中，条带头815也可以被称为分块组头。

图像数据820包含根据帧间预测和/或帧内预测进行编码的视频数据以及对应的变换和量化残差数据。例如，视频序列包括多个帧821。帧821是预期在视频序列中的对应时刻向用户完整或部分显示的完整图像。帧821可以包括一个或多个图像823。在大多数上下文中，帧821包括单个图像823。在这种情况下，图像823或图像/帧821包含在单个接入单元(access unit，AU)中。然而，在交错视频上下文中，图像823是包含在AU中的水平行组成的场，例如第一场610或第二场612。因此，当采用交错视频译码时，帧821可以从两个图像823中生成。图像823包括一个或多个条带825。条带825可以被定义为图像823中的整数个完整分块或(例如分块内的)整数个连续完整编码树单元(coding tree unit，CTU)行，这些分块或CTU行仅包括在单个网络抽象层(network abstraction layer，NAL)单元中。因此，条带725进一步划分成CTU和/或编码树块(coding tree block，CTB)。CTU/CTB根据编码树进一步划分成编码块。然后，编码块可以根据预测机制进行编码/解码。

码流800可以包括field_seq_flag 827。当与IRAP图像相关联的任何前置图像在编码顺序上优先于与该IRAP图像相关联的所有非前置图像(如CVS 500中所示)时，field_seq_flag 827可以被设置为第一值。当一个非前置图像在编码顺序上优先于与IRAP图像相关联的初始前置图像，并且在解码顺序上该初始前置图像和末尾前置图像之间没有前置图像(如CVS 700中所示)时，该标志可以被设置为第二值。在这种情况下，该IRAP图像包括帧的第一场，处于该初始前置图像之前的非前置图像包括该帧的第二场。在所示的示例中，field_seq_flag827可以包含在SPS 810中。在一个具体示例中，当指示编码视频序列包括表示帧821的场的图像823时，该field_seq_flag 827可以被设置为1，当指示该编码视频序列包括各自表示完整帧821的图像823时，该field_seq_flag 827可以被设置为0。相应地，解码器可以读取该field_seq_flag 827，以确定对该IRAP图像以及一个或多个非前置图像进行解码何时应当包括：将该IRAP图像中的该第一场与处于该初始前置图像之前的非前置图像中的该第二场进行交错，以创建单个帧。因此，该field_seq_flag 827使得交错视频译码的使用结合了前置图像。因此，采用field_seq_flag 827增强了编码器和/或解码器的功能。进一步地，采用field_seq_flag 827可以通过增加有效帧率来提高码流800的译码效率，而不会显著增加编码视频序列所需的数据量。因此，采用field_seq_flag 827可以减少编码器侧和/或解码器侧处理器资源、存储器资源和/或网络传输资源的使用。

下面更详细地描述上述信息。IRAP图像提供了各种有益的功能，但对压缩效率造成了不良影响。IRAP图像的存在可能会导致码率激增。这种对压缩效率的不良影响可能是由于多种原因造成的。例如，IRAP图像是帧内预测图像，因此，与帧间预测图像相比，IRAP图像需要更多的位来表示。此外，IRAP图像的存在可能会中断时间预测。这是因为解码器可能会在接收到IRAP图像时刷新解码过程，而这会导致删除DPB中先前的参考图像。这可能会造成在解码顺序上跟随IRAP图像的图像的译码效率较低，因为在执行帧间预测译码时，这些图像接入的参考图像较少。

在用作IRAP图像的图像类型中，IDR图像与其它图像类型相比可以使用不同的指示和推导方式。其中一些区别如下所述。在对IDR图像的POC值进行指示和/或推导时，POC的最高有效位(most significant bit，MSB)部分可能不是基于前一个关键图像推导的。相反，POC的MSB可能被设置为0。此外，IDR图像的条带头可以不包含用于帮助解码器执行参考图像管理的信息。对于其它图像类型，例如CRA、后置和时间子层接入(temporal sub-layeraccess，TSA)，诸如参考图像集(reference picture set，RPS)或参考图像列表等信息可以包含在条带头中，并用于参考图像标记过程。参考图像标记过程用于确定DPB中参考图像的状态为“用于参考”或“不用于参考”。但是，对于IDR图像，可以不指示(signal)这些信息，因为IDR图像的存在表示解码过程只需要将DPB中的所有参考图像标记为“不用于参考”。

另外，前置图像可以与IRAP图像相关联。前置图像是解码顺序在与它相关联的IRAP图像之后但输出顺序在该IRAP图像之前的图像。根据译码配置和图像参考结构，前置图像可以进一步划分为两种类型。第一类图像，称为RASL图像，是当解码过程从相关联的IRAP图像开始时，可能没有被正确解码的前置图像。这是可能发生的，因为这些前置图像是参照解码顺序在IRAP图像之前的图像进行译码的。第二类图像，称为RADL图像，是即使解码过程从相关联的IRAP图像开始，也应该会被正确解码的前置图像。这是有可能的，因为这些前置图像的译码并没有直接或间接地参考解码顺序在IRAP图像之前的任何图像。在一些视频译码系统中，与IRAP图像相关联的RASL图像被限制为在输出顺序上优先于与同一IRAP图像相关联的RADL图像。

IRAP图像和前置图像可以被赋予不同的NAL单元类型，使得这些图像容易被系统级应用识别。例如，视频拼接器可以理解编码图像类型，而不必考虑经编码码流中的详细语法元素。例如，拼接可能需要从非IRAP图像中识别IRAP图像，并从后置图像中识别前置图像，包括确定RASL图像和RADL图像。后置图像是与IRAP图像相关联的且输出顺序在IRAP图像之后的那些图像。当当前图像在解码顺序上跟随IRAP图像，并且在解码顺序上优先于任何其它IRAP图像时，该当前图像与该IRAP图像相关联。因此，提供具有相应NAL单元类型的IRAP图像和前置图像会支持此类应用的功能。

在一些视频译码系统中，IRAP图像和前置图像的NAL单元类型可能包括以下几种。伴随前置图像的断点连接接入(broken link access，BLA)(BLA_W_LP)是解码顺序可以在一个或多个前置图像之前的BLA图像的NAL单元。伴随RADL图像的BLA(BLA_W_RADL)是解码顺序可以在一个或多个RADL图像之前但不在RASL图像之前的BLA图像的NAL单元。未伴随前置图像的BLA(BLA_N_LP)是解码顺序不在前置图像之前的BLA图像的NAL单元。伴随RADL图像的IDR(IDR_W_RADL)是解码顺序可以在一个或多个RADL图像之前但不在RASL图像之前的IDR图像的NAL单元。未伴随前置图像的IDR(IDR_N_LP)是解码顺序不在前置图像之前的IDR图像的NAL单元。CRA是后面可以跟随着前置图像(包括RASL图像和/或RADL图像)的CRA图像的NAL单元。RADL是RADL图像的NAL单元。RASL是RASL图像的NAL单元。

其它视频译码系统可以使用IRAP图像和前置图像的如下NAL单元类型。IDR_W_RADL是解码顺序可以在一个或多个RADL图像之前但不在RASL图像之前的IDR图像的NAL单元。IDR_N_LP是解码顺序不在前置图像之前的IDR图像的NAL单元。CRA是后面可以跟随着前置图像(例如，RASL图像和/或RADL图像)的CRA图像的NAL单元。RADL是RADL图像的NAL单元。RASL是RASL图像的NAL单元。

对于码流一致性，例如在HEVC系统和/或VVC系统中，可以对前置图像应用一些约束条件。这些约束条件如下所述。除了码流中在解码顺序上的第一个图像之外，每个图像都可以被认为与解码顺序上的前一个IRAP图像相关联。当一个图像是IRAP图像的前置图像时，该图像应为RADL图像或RASL图像。当一个图像是IRAP图像的后置图像时，该图像不应为RADL图像或RASL图像。当一个图像是IRAP图像的前置图像时，该图像在解码顺序上应优先于与该IRAP图像相关联的所有后置图像。任何RASL图像都不应与IDR图像相关联。任何RADL图像都不应与nal_unit_type等于IDR_N_LP的IDR图像相关联。需要说明的是，可以通过丢弃IRAP接入单元之前的所有接入单元来在该IRAP接入单元的位置执行随机接入。这种随机接入可以实现按照解码顺序正确解码IRAP图像和所有后续非RASL图像。当要激活每个参数集时，只要此参数集在码流中或通过诸如用户输入的外部手段是可用的，就可以执行这种随机接入。此外，在解码顺序上优先于IRAP图像的任何图像应在输出顺序上优先于该IRAP图像，并且应在输出顺序上优先于与该IRAP图像相关联的任何RADL图像。与CRA图像相关联的任何RASL图像应在输出顺序上优先于与该CRA图像相关联的任何RADL图像。与CRA图像相关联的任何RASL图像应在输出顺序上跟随在解码顺序上优先于该CRA图像的任何IRAP图像。

因此，如上所述与前置图像相关的码流一致性约束条件可能与交错视频译码机制冲突。这种冲突如下所述。当使用交错译码时，IRAP图像的两个场不会都被标记为IRAP图像。而是只有第一场被标记为IRAP图像，第二场会被标记为后置图像。包含图像第二场的交错后置图像应在解码顺序上紧紧跟随交错IRAP图像。这是因为该交错IRAP图像和该交错后置图像构成了一个完整的帧。如果一个或多个前置图像在解码顺序上跟随IRAP图像，则违反了如下约束条件：当一个图像是IRAP图像的前置图像时，该图像应在解码顺序上优先于与该IRAP图像相关联的所有后置图像。不能简单地删除上述约束条件，因为该约束条件可能有助于外部实体(如视频拼接器)有效地确定是否存在与IRAP图像相关联的前置图像，以及是否已经考虑了所有前置图像。这种外部实体的操作可以如下所述。从IRAP图像开始，如果紧随该IRAP图像之后的图像是后置图像，则外部实体可以确定没有与该IRAP图像相关联的前置图像。因此，为了搜索与IRAP图像相关联的所有前置图像，外部实体可以基于此约束条件找到在解码顺序上跟随该IRAP图像的第一个后置图像。如果没有上述约束条件，可能需要外部实体搜索到下一个IRAP图像，以找到与IRAP图像相关联的所有前置图像。

一般来说，本发明描述了用于处理与IRAP图像相关联的前置图像的方法。更具体地，本发明描述了用于高效搜索和识别与IRAP图像相关联的前置图像，同时支持交错视频内容的高效译码的方法。基于ITU-T和ISO/IEC的JVET的VVC标准描述了这些技术。然而，这些技术还可以适用于其它视频编解码规范。

为了解决上述问题，本发明包括以下方面，这些方面可以单独使用或组合使用。例如，与IRAP图像相关联的前置图像可以按照解码顺序连续放置，中间没有非前置图像。此外，以下约束条件用于IRAP图像和前置图像的码流一致性。假定图像A和图像B分别是与IRAP图像相关联的第一个前置图像和最后一个前置图像。在这种情况下，所有图像都应该是解码顺序在图像A之后且在图像B之前的前置图像。

下列约束条件也可以适用。如果field_seq_flag被设置为0，并且当前图像是与IRAP图像相关联的前置图像，则该当前图像应在解码顺序上优先于与该IRAP图像相关联的所有非前置图像。否则，如果field_seq_flag被设置为1，则假定图像A和图像B分别是在解码顺序上与IRAP图像相关联的第一个前置图像和最后一个前置图像。在这种情况下，应该最多只有一个非前置图像的解码顺序在图像A之前，且应该不存在解码顺序在图像A之后且在图像B之前的非前置图像。

下列约束条件也可以适用。如果general_frame_only_constraint_flag被设置为1，并且当前图像是与IRAP图像相关联的前置图像，则该当前图像应在解码顺序上优先于与该IRAP图像相关联的所有非前置图像。否则，如果general_frame_only_constraint_flag被设置为0，则假定图像A和图像B分别是在解码顺序上与IRAP图像相关联的第一个前置图像和最后一个前置图像。在这种情况下，应该最多只有一个非前置图像的解码顺序在图像A之前，且应该不存在解码顺序在图像A之后且在图像B之前的非前置图像。

在一个示例中，IRAP图像的NAL单元类型提供了足够的信息用于确定是否存在与IRAP图像相关联的一个或多个前置图像。对此，可以使用以下方法。NAL单元类型CRA_NUT可以替换为CRA_W_LP，以指示有一个或多个前置图像与CRA图像相关联，和/或可以替换为CRA_N_LP，以指示没有前置图像与CRA图像相关联。在另一个示例中，NAL单元类型IDR_W_RADL、IDR_N_LP以及CRA_NUT可以替换为IRAP_W_LP，以指示前置图像与IRAP图像相关联，并且可以替换为IRAP_N_LP，以指示前置图像不与IRAP图像相关联。

在一个示例中，以下情况可以适用于CRA_W_LP、CRA_N_LP、IDR_W_RADL以及IDR_N_LP。NalUnitType等于IDR_N_LP的IDR图像不与码流中存在的任何前置图像相关联。NalUnitType等于IDR_W_RADL的IDR图像不与码流中存在的RASL图像相关联，但可能与码流中的RADL图像相关联。NalUnitType等于CRA_N_LP的CRA图像不与码流中存在的前置图像相关联。NalUnitType等于CRA_W_LP的CRA图像可能与码流中的前置图像相关联。

在一个示例中，上述NAL单元类型到流接入点(stream access point，SAP)类型的映射如下所述。IDR_N_LP和CRA_N_LP与SAP类型1相关联，IDR_W_RADL与SAP类型2相关联，CRA_W_LP与SAP类型3相关联。

在一个示例中，以下情况可以适用于IRAP_W_LP和IRAP_N_LP。NalUnitType等于IRAP_N_LP的IRAP图像不与码流中存在的前置图像相关联。NalUnitType等于IRAP_W_LP的IRAP图像可能与码流中的前置图像相关联。

在一个示例中，上述NAL单元类型到SAP类型的映射如下所述。IRAP_N_LP与SAP类型1相关联，IRAP_W_LP与SAP类型3相关联。

在一个示例中，为了确定是否存在与IRAP图像相关联的前置图像，设备可以检查IRAP图像的NAL单元类型。当IRAP图像可能与一个或多个前置图像相关联时，可以采用以下步骤发现与该IRAP图像相关联的所有前置图像。设备可以从该IRAP图像开始。如果在解码顺序上紧随该IRAP图像之后的图像是非前置图像，则该图像可能会被忽略。需要说明的是，这种紧随IRAP图像之后的非前置图像的存在可以表示码流是交错视频译码码流。下一个图像应是前置图像。该过程可以继续检查下一个图像，直至遇到第一个非前置图像。

图9为示例性视频译码设备900的示意图。视频译码设备900适用于实现本文中描述的公开示例/实施例。视频译码设备900包括下行端口920、上行端口950和/或收发单元(Tx/Rx)910。收发单元910包括发送器和/或接收器，用于通过网络在上行和/或下行进行数据通信。视频译码设备900还包括处理器930和存储器932。处理器930包括逻辑单元和/或中央处理单元(central processing unit，CPU)，以处理数据。存储器932用于存储数据。视频译码设备900还可以包括与上行端口950和/或下行端口920耦合的电子组件、光电(optical-to-electrical，OE)组件、电光(electrical-to-optical，EO)组件，和/或无线通信组件，用于通过电、光或无线通信网络进行数据通信。视频译码设备900还可以包括输入和/或输出(input/output，I/O)设备960，用于与用户进行数据通信。I/O设备960可以包括输出设备，例如用于显示视频数据的显示器、用于输出音频数据的扬声器等。I/O设备960还可以包括键盘、鼠标、轨迹球等输入设备和/或与上述输出设备进行交互的对应接口。

处理器930通过硬件和软件实现。处理器930可以实现为一个或多个CPU芯片、核(例如，多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application-specific integrated circuit，ASIC)和数字信号处理器(digitalsignal processor，DSP)。处理器930与下行端口920、Tx/Rx 910、上行端口950和存储器932通信。处理器930包括译码模块914。译码模块914实现本文中描述的公开实施例，例如方法100、方法1000以及方法1100，它们可以采用CVS 500、交错视频帧600、CVS 700和/或码流800。译码模块914还可以实现本文中描述的任何其它方法/机制。此外，所述译码模块914可以实现编解码系统200、编码器300和/或解码器400。例如，译码模块914可以设置SPS中的标志，以指示非前置图像何时位于IRAP图像和一组前置图像之间。因此，译码模块914使得视频译码设备900在对视频数据进行译码时提供其它功能和/或提高译码效率。因此，译码模块914改进了视频译码设备900的功能，并解决了视频译码领域特有的问题。此外，译码模块914可以将视频译码设备900变换到不同的状态。或者，译码模块914可以实现为存储在存储器932中并由处理器930执行的指令(例如，存储在非瞬时性介质中的计算机程序产品)。

存储器932包括一种或多种存储器类型，例如磁盘、磁带机、固态硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、闪存、三态内容寻址存储器(ternary content-addressable memory，TCAM)、静态随机存取存储器(staticrandom access memory，SRAM)等。存储器932可以用作溢出数据存储设备，以在选择程序用于执行时存储这些程序以及存储在执行程序过程中读取的指令和数据。

图10是采用交错视频译码(例如交错视频帧600)和前置图像将视频序列(例如CVS500和/或CVS 700)编码到码流(例如码流800)中的示例性方法1000的流程图。方法1000可以由编码器(例如编解码系统200、编码器300和/或视频译码设备900)在执行方法100时使用。

方法1000可以开始于：编码器接收到包括多个图像的视频序列，并根据用户输入等确定将所述视频序列编码到码流中。在步骤1001中，编码器确定视频序列的编码顺序。所述视频序列包括多个图像，所述多个图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像。可选地，所述视频序列还可以包括一个或多个(例如，一组)前置图像。

在步骤1003中，所述编码器可以将标志编码到码流中。当与IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像(如CVS 500中所示)时，所述标志可以被设置为第一值。这表示所述视频序列不包含交错视频。当一个非前置图像在编码顺序上优先于与IRAP图像相关联的初始前置图像(如CVS 700中所示)时，所述标志也可以被设置为第二值。当所述标志被设置为所述第二值时，所述码流可以被约束，使得在编码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。这可以表示所述视频序列包含交错视频。在一个具体示例中，所述编码器可以将SPS编码到所述码流中，并且所述标志可以被编码到所述SPS中。在一些示例中，所述标志为field_seq_flag。例如，当指示编码视频序列包括表示场的图像时，所述field_seq_flag可以被设置为1。此外，当指示编码视频序列包括表示帧的图像时，所述field_seq_flag可以被设置为0。相应地，可以设置所述标志以指示所述码流中采用交错视频译码。因此，当所述IRAP图像包括帧的第一场，并且处于所述初始前置图像之前的非前置图像包括所述帧的第二场时，可以设置所述标志。例如，所述IRAP图像中的所述第一场以及处于所述初始前置图像之前的所述非前置图像中的所述第二场可以包括视频数据的交替行，所述视频数据表示单个交错视频帧，如图6A至图6C中所示。

在步骤1005中，所述编码器可以按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中。在步骤1007中，所述编码器可以存储所述码流，以发送到解码器。

图11是采用交错视频译码(例如交错视频帧600)和前置图像从码流(例如码流800)中解码出视频序列(例如CVS 500和/或CVS 700)的示例性方法1100的流程图。方法1100可以由解码器(例如编解码系统200、解码器400和/或视频译码设备900)在执行方法100时使用。

方法1100可以开始于：解码器开始接收表示视频序列的经译码数据的码流(例如，方法1000的结果)。在步骤1101中，解码器接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像。可选地，所述视频序列还可以包括一个或多个(例如，一组)前置图像。

在步骤1103中，当所述标志被设置为第一值时，所述解码器可以确定与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像，如CVS 500中所示。这表示所述视频序列不包含交错视频。在步骤1105中，当所述标志被设置为第二值时，所述解码器可以确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像，如CVS 700中所示。当所述标志被设置为所述第二值时，所述解码器还可以确定在编码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。这可以表示所述视频序列包含交错视频。在一个具体示例中，所示码流可以包括SPS，所述标志可以从所述SPS中获取。在一些示例中，所述标志为field_seq_flag。例如，当指示编码视频序列包括表示场的图像时，所述field_seq_flag可以被设置为1。此外，当指示编码视频序列包括表示帧的图像时，所述field_seq_flag可以被设置为0。相应地，可以设置所述标志以指示所述码流中采用交错视频译码。因此，当所述IRAP图像包括帧的第一场，并且处于所述初始前置图像之前的非前置图像包括所述帧的第二场时，可以设置所述标志。

在步骤1107中，基于所述标志，所述解码器按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码。例如，对所述IRAP图像、前置图像(若有)以及所述一个或多个非前置图像进行解码可以包括：将所述IRAP图像中的所述第一场与处于所述初始前置图像之前的所述非前置图像中的所述第二场进行交错，以创建单个帧，如图6A至图6C中所示。在步骤1109中，所述解码器可以转发作为步骤1107的结果的一个或多个解码图像，以作为解码视频序列的一部分进行显示。

图12是用于采用交错视频译码(例如交错视频帧600)和前置图像将视频序列(例如CVS 500和/或CVS 700)编码到码流(例如码流800)中的示例性系统1200的示意图。系统1200可以由编码器和解码器(例如，编解码系统200、编码器300、解码器400和/或视频译码设备900)实现。此外，系统1200可以在实现方法100、方法1000和/或方法1100时使用。

系统1200包括视频编码器1202。所述视频编码器1202包括确定模块1201，用于确定视频序列的编码顺序，其中，所述视频序列包括多个图像，所述多个图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像。所述视频编码器1202还包括编码模块1203，用于将标志编码到码流中，其中，当与所述IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像时，所述标志被设置为第一值，当一个非前置图像在编码顺序上优先于与所述IRAP图像相关联的初始前置图像时，所述标志被设置为第二值。所述编码模块1203还用于按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中。所述视频编码器1202还包括存储模块1205，用于存储所述码流，以发送给解码器。所述视频编码器1202还包括发送模块1207，用于将所述码流发送给视频解码器1210。所述视频编码器1202还可以用于执行方法1000的任一步骤。

系统1200还包括视频解码器1210。所述视频解码器1210包括接收模块1211，用于接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括IRAP图像以及与所述IRAP图像相关联的一个或多个非前置图像。所述视频解码器1210还包括确定模块1213，用于当所述标志被设置为第一值时，确定与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像。所述确定模块1213还用于当所述标志被设置为第二值时，确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像。所述视频解码器1210还包括解码模块1215，用于基于所述标志，按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码。所述视频解码器1210还包括转发模块1217，用于转发一个或多个解码图像，以作为解码视频序列的一部分进行显示。所述视频解码器1210还可以用于执行方法1100的任一步骤。

当第一组件与第二组件之间除线、迹线或其它介质之外不存在中间组件时，第一组件与第二组件直接耦合。当第一组件与第二组件之间除线、迹线或其它介质之外还存在中间组件时，第一组件与第二组件间接耦合。术语“耦合”及其变型包括直接耦合和间接耦合。除非另有说明，否则使用术语“约”意指包括后续数字±10％的范围。

还应当理解，本文中阐述的示例性方法的步骤不一定需要按照所描述的顺序执行，并且这些方法的步骤的顺序应当理解为仅仅是示例性的。同理，在与本发明各种实施例相一致的方法中，这些方法可以包括其它步骤，并且某些步骤可以省略或组合。

虽然本发明提供了若干个实施例，但应当理解，在不脱离本发明的精神或范围的情况下，所公开的系统和方法可以通过其它多种具体形式体现。本发明的示例将被视为说明性而非限制性的，且本发明并不限于本文中所给出的详细内容。例如，各种元件或组件可以组合或集成在另一系统中，或者一些特征可以省略或不实施。

另外，在不脱离本发明范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、组件、技术或方法组合或集成。其它变更、替换、更改示例能够由本领域技术人员确定，并且可以在不脱离本文公开的精神和范围的情况下进行。

Claims

1.一种在解码器中实现的方法，其特征在于，所述方法包括：

所述解码器的接收器接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像(non-leading picture)；

当所述标志被设置为第一值时，所述解码器的处理器确定与所述IRAP图像相关联的任何前置图像(leading picture)在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像；

当所述标志被设置为第二值时，所述处理器确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像；

基于所述标志被设置为所述第一值还是所述第二值，所述处理器按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：当所述标志被设置为所述第二值时，所述处理器确定在解码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。

3.根据权利要求1和2中任一项所述的方法，其特征在于，所述码流包括序列参数集(sequence parameter set，SPS)，其中，所述标志是从所述SPS中获取的。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述标志是场序标志(field_seq_flag)。

5.根据权利要求1至4中任一项所述的方法，其特征在于，当编码视频序列包括表示场的图像时，所述field_seq_flag被设置为1，当所述编码视频序列包括表示帧的图像时，所述field_seq_flag被设置为0。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述IRAP图像包括帧的第一场，处于所述初始前置图像之前的所述非前置图像包括所述帧的第二场。

7.根据权利要求1至6中任一项所述的方法，其特征在于，对所述IRAP图像以及所述一个或多个非前置图像进行解码包括：将所述IRAP图像中的所述第一场与处于所述初始前置图像之前的所述非前置图像中的所述第二场进行交错，以创建单个帧。

8.一种在编码器中实现的方法，其特征在于，所述方法包括：

所述编码器的处理器确定视频序列的编码顺序，其中，所述视频序列包括多个图像，所述多个图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像；

所述处理器将标志编码到码流中，其中，当与所述IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像时，所述标志被设置为第一值，当一个非前置图像在编码顺序上优先于与所述IRAP图像相关联的初始前置图像时，所述标志被设置为第二值；

所述处理器按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中；

与所述处理器耦合的存储器存储所述码流，以发送给解码器。

9.根据权利要求8所述的方法，其特征在于，当所述标志被设置为所述第二值时，在编码顺序上，在所述初始前置图像和末尾前置图像之间没有前置图像。

10.根据权利要求8和9中任一项所述的方法，其特征在于，所述码流包括序列参数集(sequence parameter set，SPS)，其中，所述标志是被编码到所述SPS中的。

11.根据权利要求8至10中任一项所述的方法，其特征在于，所述标志是场序标志(field_seq_flag)。

12.根据权利要求8至11中任一项所述的方法，其特征在于，当编码视频序列包括表示场的图像时，所述field_seq_flag被设置为1，当所述编码视频序列包括表示帧的图像时，所述field_seq_flag被设置为0。

13.根据权利要求8至12中任一项所述的方法，其特征在于，所述IRAP图像包括帧的第一场，处于所述初始前置图像之前的所述非前置图像包括所述帧的第二场。

14.根据权利要求8至13中任一项所述的方法，其特征在于，所述IRAP图像中的所述第一场以及处于所述初始前置图像之前的所述非前置图像中的所述第二场包括视频数据的交替行，所述视频数据表示单个交错视频帧。

15.一种视频译码设备，其特征在于，所述视频译码设备包括：

处理器、与所述处理器耦合的接收器、与所述处理器耦合的存储器以及与所述处理器耦合的发送器，其中，所述处理器、接收器、存储器和发送器用于执行根据权利要求1至14中任一项所述的方法。

16.一种非瞬时性计算机可读介质，其特征在于，所述非瞬时性计算机可读介质包括供视频译码设备使用的计算机程序产品，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质中的计算机可执行指令，当处理器执行所述计算机可执行指令时，使得所述视频译码设备执行根据权利要求1至14中任一项所述的方法。

17.一种解码器，其特征在于，所述解码器包括：

接收模块，用于接收码流，其中，所述码流包括标志和多个编码图像，所述多个编码图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像；

确定模块，用于：

当所述标志被设置为第一值时，确定与所述IRAP图像相关联的任何前置图像在解码顺序上优先于与所述IRAP图像相关联的所有非前置图像；

当所述标志被设置为第二值时，确定一个非前置图像在解码顺序上优先于与所述IRAP图像相关联的初始前置图像；

解码模块，用于基于所述标志被设置为所述第一值还是所述第二值，按照解码顺序对所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像进行解码；

转发模块，用于转发一个或多个解码图像，以作为解码视频序列的一部分进行显示。

18.根据权利要求17所述的解码器，其特征在于，所述解码器还用于执行根据权利要求1至7中任一项所述的方法。

19.一种编码器，其特征在于，所述编码器包括：

确定模块，用于确定视频序列的编码顺序，其中，所述视频序列包括多个图像，所述多个图像包括帧内随机接入点(intra random access point，IRAP)图像以及与所述IRAP图像相关联的一个或多个非前置图像；

编码模块，用于：

将标志编码到码流中，其中，当与所述IRAP图像相关联的任何前置图像在编码顺序上优先于与所述IRAP图像相关联的所有非前置图像时，所述标志被设置为第一值，当一个非前置图像在编码顺序上优先于与所述IRAP图像相关联的初始前置图像时，所述标志被设置为第二值；

按照编码顺序将所述IRAP图像、与所述IRAP图像相关联的任何前置图像以及与所述IRAP图像相关联的所述一个或多个非前置图像编码到所述码流中；

存储模块，用于存储所述码流，以发送给解码器。

20.根据权利要求19所述的编码器，其特征在于，所述编码器还用于执行根据权利要求8至14中任一项所述的方法。