CN114586360A

CN114586360A - 用于利用子图像分区来编码和解码视频的方法和装置

Info

Publication number: CN114586360A
Application number: CN202080056612.6A
Authority: CN
Inventors: 沈东圭; 崔韩松; 朴时奈; 朴俊泽; 林和平
Original assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Current assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Priority date: 2019-08-09
Filing date: 2020-08-10
Publication date: 2022-06-03
Also published as: KR20210018168A

Abstract

本发明提供了一种用于处理比特流的方法，其中对划分为多个子图像的图像序列进行编码。所述方法包括以下步骤：从比特流解码指示划分结构的划分信息，在所述划分结构中，将属于序列的图像划分为子图像；解码与子图像相关的ID信息，并且通过利用ID信息将ID映射到每个子图像；以及通过利用映射的ID在至少一个子图像内重构块。

Description

用于利用子图像分区来编码和解码视频的方法和装置

技术领域

本发明涉及视频的编码和解码，更具体地，本发明涉及将每个图像分区为独立可显示的子图像并且对每个子图像进行编码和解码。

背景技术

由于视频数据量大于语音数据量或静止影像数据量，因此在不进行压缩处理的情况下存储或传输视频数据需要大量的硬件资源(包括存储器)。

相应地，在存储或传输视频数据时，通常利用编码器来压缩视频数据，以便于进行存储或传输。然后，解码器接收压缩的视频数据，解压并再现视频数据。用于这种视频的压缩技术包括H.264/AVC和高效率视频编码(High Efficiency Video Coding，HEVC)，所述高效率视频编码(HEVC)比H.264/AVC的编码效率提高了大约40％。

然而，视频影像的大小、分辨率和帧速率逐渐增加，因此要编码的数据量也在增多。相应地，需要一种与现有的压缩技术相比具有更好的编码效率和更高的影像质量的新压缩技术。

此外，由于诸如360视频的各种应用的出现，需要一种不仅显示解码的图像的整个区域而且还显示图像的部分区域的技术。

发明内容

技术问题

本发明涉及用于将每个图像分区为可以彼此独立地显示的子图像的技术，以及用于对每个子图像编码和解码的技术。

技术方案

根据本发明的一个方面，提供了一种用于处理比特流的方法，所述比特流通过对分区为多个子图像的图像序列进行编码而生成。所述方法包括：从比特流解码指示分区结构的分区信息，在所述分区结构中，将属于序列的图像分区为子图像；对子图像的ID信息进行解码，并且通过利用ID信息来将ID映射到每个子图像；以及通过利用映射的ID来重构至少一个子图像内的块。

由分区信息定义的分区结构对于序列中的所有图像可以是相同的。ID信息可以构造为允许将不同的ID映射到属于序列的图像内的同位子图像。

根据本发明的另一个方面，提供了视频编码方法，其用于通过对分区为多个子图像的图像序列进行编码来生成比特流。所述方法包括：对用于指示分区结构的分区信息进行编码，在所述分区结构中，将属于序列的图像分区为子图像；对子图像的ID信息进行编码；以及通过利用映射的ID来对至少一个子图像内的块进行编码。

由分区信息定义的分区结构对于所述序列中的所有图像可以是相同的。ID信息构造为允许将不同的ID映射到属于所述序列的图像内的同位子图像。

附图说明

图1是能够实现本发明的技术的视频编码装置的示例性框图。

图2是示出利用QTBTTT结构的块分割的示意图。

图3是示出多个帧内预测模式的示意图。

图4是能够实现本发明的技术的视频解码装置的示例性框图。

图5是示出比特流的结构的示例性图。

图6是用于解释将图像分区为子图像的分区结构的一个示例性视图。

图7是用于解释将图像分区为子图像的分区结构的另一个示例性视图。

图8是用于解释将图像分区为子图像的分区结构的又一个示例性视图。

图9和10是用于解释将图像分区为子图像的分区结构的进一步的示例性视图。

图11是用于解释将图像分区为子图像的分区结构的进一步的示例性视图。

图12是示出每个子层的参考结构的示例性视图。

图13是示出每个子层的参考结构的另一个示例性视图。

具体实施方式

在下文中，将参考所附附图对本发明的一些实施方案进行详细描述。应当注意，在将附图标记分配给各个附图中的组成元件时，尽管元件在不同的附图中示出，但是相同的附图标记表示相同的元件。此外，在以下对本发明的描述中，将省略并入本文的已知功能和配置的详细描述，以避免模糊本发明的主题。

图1是能够实现本发明的技术的视频编码装置的示例性框图。在下文中，将参考图1来描述视频编码装置以及该装置的元件。

视频编码装置包括：图像分割器110、预测器120、减法器130、变换器140、量化器145、重组器150、熵编码器155、逆量化器160、逆变换器165、加法器170、环路滤波单元180和存储器190。

视频编码装置的每个元件可以以硬件或软件、或者硬件和软件的组合来实现。各个元件的功能可以实现为软件，并且微处理器可以实现为执行对应于各个元件的软件功能。

一个视频包括多个图像。每个图像分割为多个区域，并且对每个区域执行编码。例如，一个图像分割为一个或更多个瓦片(tile)和/或切片(slice)。这里，一个或更多个瓦片可以被定义为瓦片组。每个瓦片或切片分割为一个或更多个编码树单元(coding treeunit，CTU)。每个CTU通过树结构分割为一个或更多个编码单元(coding unit，CU)。应用于每个CU的信息被编码为CU的语法，并且共同应用于包括在一个CTU中的CU的信息被编码为CTU的语法。另外，共同应用于一个切片中的所有块的信息被编码为切片头的语法，而应用于构成一个或更多个图像的所有块的信息被编码在图像参数集(Picture Parameter Set，PPS)或图像头中。此外，由多个图像组成的序列共同参考的信息被编码在序列参数集(Sequence Parameter Set，SPS)中。共同应用于一个瓦片或瓦片组的信息可以被编码为瓦片头或瓦片组头的语法。

图像分割器110确定编码树单元(CTU)的大小。关于CTU的大小(CTU尺寸)的信息被编码为SPS或PPS的语法，并且被传输至视频解码装置。

图像分割器110将构成视频的每个图像分割为具有预定大小的多个CTU，然后利用树结构递归地分割CTU。在树结构中，叶节点用作编码单元(CU)，所述编码单元(CU)是编码的基本单元。

树结构可以是四叉树(QuadTree，QT)、二叉树(BinaryTree，BT)、三叉树(TernaryTree，TT)、或者由两个或更多个QT结构、BT结构和TT结构的组合形成的结构，所述四叉树(QT)即节点(或父节点)被分割为相同大小的四个从节点(或子节点)，所述二叉树(BT)即节点被分割为两个从节点，所述三叉树(TT)即节点以1:2:1的比率被分割为三个从节点。例如，可以利用四叉树加二叉树(QuadTree plus BinaryTree，QTBT)结构，或者可以利用四叉树加二叉树三叉树(QuadTree plus BinaryTree TernaryTree，QTBTTT)结构。这里，BTTT可以统称为多类型树(multiple-type tree，MTT)。

图2示例性地示出了QTBTTT分割树结构。如图2所示，CTU可以首先分割为QT结构。可以重复QT分割，直到分割块的大小达到QT中允许的叶节点的最小块大小MinQTSize。由熵编码器155对指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码，并将其用信号通知给视频解码装置。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时，可以进一步将其分割为一个或更多个BT结构或TT结构。BT结构和/或TT结构可以具有多个分割方向。例如，可以存在两个方向，即，水平地分割节点的块的方向和竖直地分割块的方向。如图2所示，当MTT分割开始时，通过熵编码器155对指示节点是否被分割的第二标志(mtt_split_flag)、指示分割情况下的分割方向(竖直或水平)的标志、和/或指示分割类型(二叉或三叉)的标志进行编码，并将其用信号通知给视频解码装置。替选地，在对指示每个节点是否被分割为下层的4个节点的第一标志(QT_split_flag)进行编码之前，可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值指示出没有执行分割时，节点的块成为分割树结构中的叶节点，并用作编码单元(CU)，所述编码单元(CU)是编码的基本单元。当CU分割标志(split_cu_flag)的值指示出执行分割时，视频编码装置开始以上述方式从第一标志起对标志进行编码。

当利用QTBT作为树结构的另一个示例时，可以存在两种分割类型，即将块水平地分割为相同大小的两个块的类型(即，对称水平分割)和将块竖直地分割为相同大小的两个块的类型(即，对称竖直分割)。由熵编码器155对指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息进行编码，并将其传输至视频解码装置。可以存在将节点的块分割为两个非对称块的额外类型。非对称分割类型可以包括以1:3的大小比率将块分割为两个矩形块的类型，或者对角线地分割节点的块的类型。

CU可以根据CTU的QTBT或QTBTTT分割而具有各种大小。在下文中，与要编码或解码的CU(即，QTBTTT的叶节点)相对应的块被称为“当前块”。在采用QTBTTT分割时，当前块的形状可以是正方形或矩形。

预测器120对当前块进行预测以生成预测块。预测器120包括帧内预测器122和帧间预测器124。

帧内预测器122利用在包括当前块的当前图像中位于该当前块周围的像素(参考像素)来预测该当前块中的像素。根据预测方向，存在多个帧内预测模式。例如，如图3所示，多个帧内预测模式可以包括两种非方向模式和65种方向模式，两种非方向模式包含平面(planar)模式和DC模式。针对每种预测模式不同地定义要使用的相邻像素和等式。

帧内预测器122可以确定对当前块进行编码时要使用的帧内预测模式。在一些示例中，帧内预测器122可以利用若干帧内预测模式来对当前块进行编码，并且从测试的模式中选择要使用的适当的帧内预测模式。例如，帧内预测器122可以利用若干测试的帧内预测模式的率失真(rate-distortion)分析来计算率失真值，并且可以在测试的模式中选择具有最佳率失真特性的帧内预测模式。

帧内预测器122从多个帧内预测模式中选择一个帧内预测模式，并且利用根据选择的帧内预测模式所确定的相邻像素(参考像素)和等式来预测当前块。由熵编码器155对关于选择的帧内预测模式的信息进行编码，并将其传输至视频解码装置。

帧间预测器124通过运动补偿来生成当前块的预测块。帧间预测器124在比当前图像更早已被编码和解码的参考图像中搜索与当前块最相似的块，并且利用搜索到的块来生成当前块的预测块。然后，帧间预测器生成与当前图像中的当前块和参考图像中的预测块之间的位移(displacement)相对应的运动矢量(motion vector)。通常，对亮度(luma)分量执行运动估计，并且基于亮度分量计算的运动矢量用于亮度分量和色度分量两者。由熵编码器155对包括关于参考图像的信息和有关用于预测当前块的运动矢量的信息的运动信息进行编码，并且将其传输至视频解码装置。帧间预测器124可以在参考图像或参考块上执行插值，以增加预测的准确性。也就是说，通过向包括两个整数像素的多个连续整数像素应用滤波器系数来在两个连续整数像素之间插值子像素。当对于插值的参考图像执行搜索与当前块最相似的块的过程时，运动矢量可以表达为不是整数像素的精度，而是小数单位的精度。对要编码的目标区域的每个单元，例如，切片、瓦片、CTU或CU可以不同地设置运动矢量的精度或分辨率。

减法器130将当前块减去由帧内预测器122或帧间预测器124生成的预测块以生成残差块。

变换器140可以将残差块分割为一个或更多个子块，并且对一个或更多个子块应用变换，从而将变换块的残差值从像素域变换到频域。在频域中，变换块被称为包含一个或更多个变换系数值的系数块或变换块。二维变换核可以用于变换，而一维变换核可以分别用于水平变换和竖直变换。变换核可以基于离散余弦变换(DCT)、离散正弦变换(DST)等。

变换器140可以利用残差块的整个大小作为变换单元来变换残差块中的残差信号。替选地，可以将残差块分区为多个子块，并且可以利用子块作为变换单元来对子块中的残差信号进行变换。

变换器140可以在水平方向和竖直方向上单独地变换残差块。对于变换，可以利用各种类型的变换函数或变换矩阵。例如，用于在水平方向和竖直方向上变换的一对变换函数可以被定义为多变换集(multiple transform set，MTS)。变换器140可以选择MTS中具有最佳变换效率的一对变换函数，并且分别在水平方向和竖直方向上对残差块进行变换。由熵编码器155对关于从MTS中选择的变换函数对的信息(mts_idx)进行编码，并将其用信号通知给视频解码装置。

量化器145利用量化参数对从变换器140输出的变换系数进行量化，并且将量化的变换系数输出至熵编码器155。对于一些块或帧，量化器145可以不经变换直接对相关残差块进行量化。量化器145可以根据变换块中的变换系数的位置来应用不同的量化系数(缩放值)。可以对应用于布置为二维的量化的变换系数的量化系数矩阵进行编码，并且将其用信号通知给视频解码装置。

重组器150可以对量化的残差值的系数值进行重组。重组器150可以通过系数扫描(coefficient scanning)来将2维系数阵列改变为1维系数序列。例如，重组器150可以利用锯齿形扫描(zig-zag scan)或对角线扫描(diagonal scan)从直流(DC)系数向高频区域中的系数对系数进行扫描，以输出1维系数序列。根据变换单元的大小和帧内预测模式，可以利用竖直扫描或水平扫描来代替锯齿形扫描，所述竖直扫描即在列方向上对二维系数阵列进行扫描，所述水平扫描即在行方向上对二维块形状的系数进行扫描。也就是说，可以根据变换单元的大小和帧内预测模式在锯齿形扫描、对角线扫描、竖直扫描和水平扫描中确定要利用的扫描模式。

熵编码器155利用诸如基于上下文的自适应二进制算术编码(Context-basedAdaptive Binary Arithmetic Code，CABAC)和指数哥伦布(exponential Golomb)的各种编码技术来对从重组器150输出的一维量化的变换系数进行编码，以生成比特流。

熵编码器155对与块分割相关的信息(例如，CTU大小、CU分割标志、QT分割标志、MTT分割类型和MTT分割方向)进行编码，使得视频解码装置可以以与视频编码装置相同的方式来分割块。另外，熵编码器155对关于指示当前块是由帧内预测还是由帧间预测进行编码的预测类型的信息进行编码，并且根据预测类型来对帧内预测信息(即，关于帧内预测模式的信息)或帧间预测信息(关于参考图像索引和运动矢量的信息)进行编码。此外，熵编码器155对与量化有关的信息，也就是关于量化参数的信息和关于量化矩阵的信息进行编码。

逆量化器160对从量化器145输出的量化的变换系数进行逆量化，以生成变换系数。逆变换器165将从逆量化器160输出的变换系数从频域变换到空域，并且重构残差块。

加法器170将重构的残差块和由预测器120生成的预测块相加，以重构当前块。重构的当前块中的像素在执行后续块的帧内预测时用作参考像素。

环路滤波单元180对重构的像素进行滤波，以减少由于基于块的预测和变换/量化而产生的块伪影(blocking artifacts)、振铃伪影(ringing artifacts)和模糊伪影(blurring artifacts)。环路滤波单元180可以包括去块滤波器182、样本自适应偏移(sample adaptive offset，SAO)滤波器184或自适应环路滤波器(adaptive loop filter，ALF)186的一个或更多个。

去块滤波器182对重构的块之间的边界进行滤波，以去除由逐块编码/解码而引起的块伪影，并且SAO滤波器184对去块滤波的视频执行额外的滤波。SAO滤波器184是用于对由有损编码引起的重构的像素与原始的像素之间的差进行补偿的滤波器，并且以将相对应的偏移和每个重构的像素相加的方式来执行滤波。ALF 186通过对目标像素和该目标像素的相邻像素应用滤波器系数来对要滤波的目标像素执行滤波。ALF 186可以将包括在图像中的像素划分为预定组，然后确定要应用于相应组的一个滤波器，以对每个组差分地执行滤波。可以对关于要用于ALF的滤波器系数的信息进行编码，并且将其用信号通知给视频解码装置。

通过环路滤波单元180滤波的重构的块存储在存储器190中。一旦一个图像中的所有块被重构，重构的图像就可以用作对后续要被编码的图像中的块进行帧间预测的参考图像。

图4是能够实现本发明的技术的视频解码装置的示例性功能框图。在下文中，将参考图4来描述视频解码装置和装置的元件。

视频解码装置可以包括：熵解码器410、重组器415、逆量化器420、逆变换器430、预测器440、加法器450、环路滤波单元460和存储器470。

类似于图1的视频编码装置，视频解码装置的每个元件可以用硬件、软件、或者硬件和软件的组合来实现。此外，每个元件的功能可以用软件来实现，并且微处理器可以实现为执行对应于每个元件的软件功能。

熵解码器410通过对由视频编码装置生成的比特流解码并提取与块分割相关的信息来确定要解码的当前块，并且提取重构当前块所需的预测信息和关于残差信号的信息等。

熵解码器410从序列参数集(SPS)或图像参数集(PPS)中提取关于CTU大小的信息，确定CTU的大小，并且将图像分割为确定大小的CTU。然后，解码器将CTU确定为树结构的最高层(即，根节点)，并且提取关于CTU的分割信息，以利用树结构来分割CTU。

例如，当利用QTBTTT结构来分割CTU时，提取与QT的分割相关的第一标志(QT_split_flag)，以将每个节点分割为子层的四个节点。对于与QT的叶节点相对应的节点，提取与MTT的分割有关的第二标志(MTT_split_flag)以及关于分割方向(竖直/水平)和/或分割类型(二叉/三叉)的信息，从而以MTT结构来分割对应的叶节点。由此，以BT或TT结构来递归地分割QT的叶节点下方的每个节点。

作为另一个示例，当利用QTBTTT结构来分割CTU时，可以提取指示是否分割CU的CU分割标志(split_cu_flag)。当分割对应块时，可以提取第一标志(QT_split_flag)。在分割操作中，在零个或更多个递归QT分割之后，每个节点都可能发生零个或更多个递归MTT分割。例如，CTU可以直接经历MTT分割而不经历QT分割，或者仅经历QT分割多次。

作为另一个示例，当利用QTBT结构来分割CTU时，提取与QT分割相关的第一标志(QT_split_flag)，并且将每个节点分割为下层的四个节点。然后，提取指示是否以BT进一步分割与QT的叶节点相对应的节点的分割标志(split_flag)以及分割方向信息。

一旦通过树结构进行分割来确定要解码的当前块，熵解码器410就提取关于指示当前块是被帧内预测还是被帧间预测的预测类型的信息。当预测类型信息指示帧内预测时，熵解码器410提取当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时，熵解码器410提取用于帧间预测信息的语法元素，也就是说，指示运动矢量和由运动矢量参考的参考图像的信息。

熵解码器410还提取关于量化的当前块的变换系数的信息作为与量化有关的信息和关于残差信号的信息。

重组器415可以以由视频编码装置执行的系数扫描的相反顺序，将由熵解码器410进行熵解码的一维量化的变换系数的序列改变为2维系数阵列(即，块)。

逆量化器420利用量化参数对量化的变换系数进行逆量化。逆量化器420可以向布置为二维的量化的变换系数应用不同的量化系数(缩放值)。逆量化器420可以通过向二维量化的变换系数阵列应用来自视频编码装置的量化系数(缩放值)矩阵来执行逆量化。

逆变换器430将逆量化的变换系数从频域逆变换到空域，以重构残差信号，从而生成重构的当前块的残差块。另外，当应用MTS时，逆变换器430利用从视频编码装置用信号通知的MTS信息(mts_idx)来确定要分别在水平方向和竖直方向上应用的变换函数或变换矩阵，并且利用确定的变换函数在水平方向和竖直方向上对变换块中的变换系数进行逆变换。

预测器440可以包括帧内预测器442和帧间预测器444。在当前块的预测类型是帧内预测时，激活帧内预测器442，而在当前块的预测类型是帧间预测时，激活帧间预测器444。

帧内预测器442基于从熵解码器410提取的帧内预测模式的语法元素，在多个帧内预测模式中确定当前块的帧内预测模式，并且根据帧内预测模式，利用当前块周围的参考像素来预测当前块。

帧间预测器444利用从熵解码器410提取的帧内预测模式的语法元素来确定当前块的运动矢量和由运动矢量参考的参考图像，并且基于运动矢量和参考图像来预测当前块。

加法器450通过将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加来重构当前块。重构的当前块中的像素在对后续要被解码的块进行帧内预测时用作参考像素。

环路滤波单元460可以包括去块滤波器462、SAO滤波器464或ALF 466的至少一个。去块滤波器462对重构的块之间的边界进行去块滤波，以去除由逐块解码引起的块伪影。SAO滤波器464以在对相应偏移进行去块滤波之后添加重构的块的方式执行滤波，以便补偿由有损编码引起的重构的像素与原始的像素之间的差。ALF 466通过对目标像素和该目标像素的相邻像素应用滤波器系数来对要滤波的目标像素执行滤波。ALF 466可以将图像中的像素划分为预定组，然后确定要应用于相应组的一个滤波器，以对每个组差分地执行滤波。基于关于从比特流解码的滤波器系数的信息来确定ALF的滤波器系数。

通过环路滤波单元460滤波的重构的块存储在存储器470中。当一个图像中的所有块被重构时，重构的图像用作对后续要被编码的图像中的块进行帧间预测的参考图像。

如上所述，视频编码装置传输包含关于视频的编码的数据的比特流，视频解码装置解码比特流以重构构成视频的每个图像。比特流可以由多个传输单元组成，所述传输单元即网络提取层(network abstraction layer，NAL)单元。如图5所示，NAL单元可以包括NAL单元头和通过NAL单元承载的数据。为了以字节为单位匹配NAL单元的大小，可以向构成NAL单元的数据的后部添加位。NAL单元头包括用于指示通过NAL单元承载的数据的类型的NAL单元类型和NAL单元的时间层ID。

根据包括在数据字段中的数据类型，NAL单元可以分类为视频编码层(videocoding layer，VCL)类型和非VCL类型。VCL类型NAL单元是包含数据字段中的编码的像素组的影像数据的NAL单元，并且通常包含关于编码的切片的数据。这意味着，在其中传输影像数据的单元是切片。非VCL类型NAL单元包括对数据字段中的像素组的数据解码所需的参数。包括高级语法的NAL单元，例如包括在序列级别共享的参数的SPS(在下文中称为“第一参数集”)或包括在一个或更多个图像级共享的参数的PPS(在下文中称为“第二参数集”)，对应于非VCL类型的NAL单元。传输的NAL单元是否与第一参数集、第二参数集或编码的切片有关由包含在NAL单元头中的NAL单元类型指示。

随着诸如360视频的各种应用的出现，需要一种不仅显示解码的图像的整个区域而且还显示图像的部分区域的技术。为了支持该技术要求，本发明的另一方面提供了一种将图像分区为多个子图像并对每个子图像编码和解码的方法。本发明能够独立编码或独立传输构成每个图像的子图像。此外，可以独立地从整个比特流提取或解码与子图像的每个相对应的数据。进一步地，可以彼此独立地显示来自图像的分区的子图像。

视频编码装置可以对指示在视频序列中是否允许子图像分区的标志进行编码。如果标志指示出允许子图像分区，则视频编码装置对指示子图像的布局的信息进行编码。视频解码装置可以通过解码标志来识别在视频序列中是否允许子图像分区，并且可以通过解码布局信息来确定图像内的子图像的布局。

为了表示从图像分区的子图像的布局，可以定义由一个或更多个编码单元(CU)组成的编码单元组。根据目的和大小，编码单元组可以与预定义大小的网格、CTU、切片或瓦片相对应。子图像由一个或更多个编码单元组定义。

图6是用于解释将图像分区为子图像的分区结构的示例性视图。

编码单元组可以分类为第一编码单元组和第二编码单元组，所述第一编码单元组是图像或子图像的基本单元，所述第二编码单元组由多个第一编码单元组组成。例如，第一编码单元组可以是CTU或预定义大小的网格，而第二编码单元组可以是与传输单元相对应的切片或为独立编码/解码定义的瓦片或瓦片组。子图像可以由一个第二编码单元组或多个第二编码单元组组成。

视频编码装置可以用信号通知第一编码单元组的大小(例如，第一编码单元组的水平长度或竖直长度)、第一编码单元组在图像的水平方向和/或竖直方向上的数量等，并且视频解码装置可以通过利用用信号通知的信息来识别第一编码单元组的大小和图像的大小。

图像内的子图像的布局信息可以表示为指示将图像分区为子图像的分区结构的分区信息，以及指示图像内的子图像的ID或索引的信息。可以基于第一编码组来表示用于指示分区结构的分区信息。也就是说，分区信息可以由第一编码单元组(其为子图像的基本单元)的大小(例如，第一编码单元组的宽度和高度)以及子图像的水平方向和竖直方向上的第一编码单元组的数量来表示。此外，分区信息可以进一步包括用于识别位于每个子图像的左上方和/或右下方的第一编码单元组的识别信息。

图7可以对应于一个第二编码单元组构成一个子图像的情况。也就是说，在图7中，网格对应于第一编码单元组，并且一个第二编码单元组(其为一组网格)对应于一个子图像。

如同在图6中，在此示例中的分区信息可以进一步包括网格的大小(所述网格为子图像的基本单元)、子图像的水平方向和竖直方向上的网格的数量、以及用于识别位于子图像的左上方和/或右下方的网格的识别信息。

替选地，分区信息可以表示为构成子图像的网格的ID或地址。为此，可以根据特定的扫描次序，例如光栅扫描次序，以从0开始的升序来分配图像内网格的ID或地址。

在上述中，基于矩形的基本单元已经定义了子图像的分区结构。然而，可以以各种形式定义子图像的分区结构。

在该示例中，预定义多个分区类型，通过这些分区类型将图像分区为子块。视频编码装置可以用信号通知指示多个预定义分区类型的任何一个的索引，并且视频解码装置可以通过从视频编码装置接收的索引来确定分区类型，通过分区类型将图像分区为子块。

图9和图10是用于解释将图像分区为子图像的分区结构的进一步的示例性视图。

在此示例中，子图像的基本单元可以具有各种形状。例如，如图9所示，基本单元可以是矩形或三角形。视频编码装置向视频解码装置用信号通知指示多个基本单元形状中要使用的基本单元形状的索引。此外，视频编码装置用信号通知关于要使用的基本单元形状的大小(M和N)的信息。

子图像分区结构可以由子图像的第一基本单元的索引、最后基本单元的索引和子图像的形状的至少一个来表示。为此，可以根据预定义的扫描次序来分配基本单元的索引。例如，扫描次序可以是如图10所示的光栅扫描次序。

如图10的(a)所示，如果基本单元的形状是矩形的，并且子图像的形状是矩形的，则可以仅由每个子图像的最后基本单元的索引来定义子图像的结构。如图4的(a)，可以由索引K的值来定义第一子图像，并且可以由索引J的值来定义第二子图像。视频编码装置向视频解码装置用信号通知关于K值和J值的信息。可以由与K值的差值来表示关于J值的信息。视频解码装置可以通过利用传输的差值和K值来获取J值。

尽管附图示出了索引从左上方到右下方顺序地增加的光栅扫描次序，但也可以使用其他扫描次序。此外，可以由在水平方向(x轴方向)和竖直方向(y轴方向)上的两个值来表示索引。在这种情况下，由基本单元的二维坐标来定义每个子图像。例如，在图10的(a)中，由水平方向上的索引4和竖直方向上的索引2，即(4，2)，来定义每个子图像。视频编码装置向视频解码装置用信号通知图像内每个子图像的最后基本单元的水平方向和竖直方向上的索引。

即使当子图像具有矩形以外的其他形状时，可以由每个子图像内最后基本单元的索引来定义子图像分区结构。例如，如果以图8的分区类型5这样的方式来对图像进行分区，可以由每个子图像的最后基本单元的索引来定义子图像分区结构。例如，当前子图像由这样的基本单元组成，所述基本单元的索引大于与先前子图像相对应的最后基本单元的索引并且等于或小于与当前子图像相对应的最后基本单元的索引。

同时，在上述示例中，如果用信号通知图像内子图像的数量，则可以省略与图像内最后子图像相对应的基本单元的索引信息。

当基本单元的形状为如图10的(b)所示的三角形时，可以以与上述方法相似的方式来定义子图像分区结构。

在此示例中，不是通过利用子图像的基本单元，而是通过利用图像内像素的位置信息来定义子图像分区结构。如果将图像分区为六个矩形的子图像，如图11中所示，则可以仅由像素的坐标信息(a和b)来定义分区结构。如果存在子图像的大小必须是n的倍数的限制，则视频编码装置可以传输通过将像素坐标值除以n而获得的值。也就是说，用信号通知对应于a/n和b/n的值作为像素的坐标信息(a和b)。视频解码装置可以通过将接收的值乘以n来计算a和b。在一些实施方案中，可以以与a的坐标的差值的形式来传输b的坐标。

视频编码装置向视频解码装置传输关于上述分区结构的信息(分区信息)和图像内的子图像的ID信息作为布局信息。视频解码装置通过利用接收的布局信息来确定图像内的子图像的布局。视频解码装置可以从视频编码装置提取基于每个切片传输的子图像ID，从而找出包括相应切片的子图像。另外，通过上述解码处理，由对构成每个子图像的一个或更多个切片内的块进行解码来重构子图像。

如上所述，构成一个视频序列的多个图像的每个可以分区为多个子图像，并且可以仅提取并编码/解码属于一个序列的每个图像内的一些子图像。此外，可以仅显示这些子图像。相应地，本发明定义了这样的子序列或子层，所述子序列或子层仅由在属于一个视频序列的各个图像内的相同位置处或具有相同ID的子图像组成。

由于需要一个子层来构成一条内容，因此会希望属于子层的子图像彼此相关并且子图像具有相同的大小。相应地，构成一个视频序列的所有图像可以具有相同的子图像分区结构，并且图像内的同位子图像可以具有相同的ID。然而，在诸如基于用户视口的360度视频流的应用的情况下，子图像的ID可以根据用户的观看方向在一个视频序列内改变。相应地，具有相同ID的子图像可以位于不同的位置或具有不同的大小，以便支持这样的应用。换句话说，属于一个序列的图像内的同位子图像可以具有不同的ID。因此，可以以这样的方式用信号通知ID信息，即允许将不同的ID映射到属于序列的图像内的同位子图像。

在下文中，将描述用于用信号通知布局信息的技术，所述布局信息即指示分区结构的分区信息和/或ID信息。

可以在序列级别用信号通知用于描述子图像的布局的信息。也就是说，可以在序列级别用信号通知指示子图像分区结构的分区信息。例如，可以使用如下一个或更多个方法：在序列参数集(SPS)中用信号通知分区信息的方法、为每个图像组或属于序列的图像重复地用信号通知的方法、以及用信号通知指示是否将分区结构同样地应用于属于相应序列的所有图像的语法元素(例如，标志)的方法。例如，可以用信号通知指示出将分区结构同样地应用于属于相应序列的所有图像的语法元素，并且相应地，可以在序列参数集中用信号通知分区信息。在这种情况下，视频解码装置对来自序列参数集的分区信息进行解码，并且通过相同的分区结构对属于序列的所有图像进行分区。

可以以与分区信息相同的方式用信号通知图像内的子图像的ID信息。例如，可以用信号通知指示出将ID映射同样地应用于属于相应序列的所有图像的语法元素，并且相应地，可以在序列参数集中用信号通知ID信息。在这种情况下，视频解码装置解码ID信息，并且将相同的ID映射到图像内的同位子图像。

此时，对于属于序列的每个图像组可以使用不同的子图像布局。每个图像组包括一个或更多个图像，并且属于相同的图像组的图像具有相同的布局。在这种情况下，可以在图像组级别用信号通知用于描述子图像的布局的每条信息。例如，可以使用如下一个或更多个方法：在图像参数集(PPS)中用信号通知关于分区结构的方法、为属于图像组的每个图像用信号通知关于分区结构的信息的方法、以及用信号通知指示是否将应用在图像组级别上的分区结构同样地应用于属于相应图像组的所有图像的语法元素(例如，标志)的方法。

例如，可以用信号通知指示出将分区结构(或ID映射)同样地应用于属于相应图像组的所有图像的语法元素，并且可以在图像参数集中用信号通知分区信息(或ID信息)。在这种情况下，视频解码装置通过相同的分区结构对属于图像组的所有图像进行分区(或者将相同的ID映射到属于图像组的图像内的同位子图像)。相应地，属于视频序列内不同的图像组的图像(即，参考不同图像参数集的图像)可以具有不同的分区结构。另外，不同的ID可以映射到属于不同图像组的图像内的同位子图像。

当包括在SPS中的语法元素指示出分区结构或ID映射没有共同应用于属于相应序列的图像时，可以在图像组级别用信号通知分区信息或ID信息。例如，当序列级别上的语法元素指示出分区结构没有同样地应用于属于相应序列的图像时，在图像组级别用信号通知分区信息。同样地，当序列级别上的语法元素指示出ID映射没有同样地应用于序列时，在图像组级别用信号通知ID信息。

在从视频编码装置接收包含子图像布局信息(指示子图像分区结构的分区信息和子图像ID信息)的比特流时，视频解码装置可以通过利用接收到的布局信息提取相同位置处或具有相同ID的子图像来构造子层。

在本发明的一些实施方案中，在接收具有编码的图像序列的比特流时，视频解码装置可以针对每个子层独立地解码并管理比特流。例如，可以以子层的独立的解码次序来解码每个子层，并且可以为每个子层管理解码的子图像。为此，可以对每个子层使用不同的解码图像缓冲器(decoded picture buffer，DPB)。

可以通过利用图像ID和子图像ID来管理子图像。包括在相同图像中的子图像可以具有相同的图像ID，而属于不同子层的子图像可以具有不同的子图像ID。通过利用图像ID和子图像ID，每个子层可以配置为在子图像之间具有独立的参考结构，并且可以通过单独的DPB或单独的显示缓冲器被独立地管理。子图像可以被单独地添加到基于每个子层进行管理的DPB或基于每个图像进行管理的DPB中的至少一个或者被从基于每个子层进行管理的DPB或基于每个图像进行管理的DPB中的至少一个删除，并且可以被输出以用于显示。视频解码装置可以通过利用图像ID同时显示构成一个图像的子图像，或者可以通过利用子图像ID或可以根据子图像ID推导出的信息(例如，子图像位置)来单独地显示每个子图像。

子层可以有独立的参考结构。相应地，参考结构可以在子层之间变化。

图12是示出每个子层的参考结构的一个示例性视图。

例如，如图12所示，对于两个子层，随机接入点(random access point，RAP)子图像的显示次序和/或解码次序可以相同，而对于每个子层，除了随机接入点子图像之外的其他子图像的解码次序和/或显示次序可以不同。当显示由属于不同子层的多个子图像组成的图像时，考虑到每个子层的子图像之间的参考结构和/或子图像的编码/解码次序，可以延迟图像的显示。例如，当同时显示包括在每个图像中的所有子图像时，从具有特定图像ID的图像开始，视频解码装置可以延迟显示，直到具有与随机接入点子图像相同的图像ID的所有子图像已经被解码为止，所述随机接入点子图像在显示次序上最接近具有特定图像ID的图像。

图13是示出每个子层的参考结构的另一个示例性视图。

如图13所示，对于每个子层，随机接入点(RAP)子图像和其他子图像的解码次序和/或显示次序可以变化。在图13中，子层#1的随机接入点子图像之间的间隔为三个子图像，而子层#2的间隔为五个子图像。在该示例中，当显示由属于不同的子层的多个子图像组成的图像时，将考虑每个子层的子图像之间的参考结构和/或子图像的编码/解码次序。

作为示例，当同时显示包括在每个图像中的所有子图像时，从具有特定图像ID的图像开始，视频解码装置可以延迟显示，直到具有与随机接入点子图像相同的图像ID的所有子图像已经被解码为止，所述随机接入点子图像在显示次序上最接近具有特定图像ID的图像。例如，在图13中，根据显示次序，子层#1的解码的2号子图像与子层#2的解码的4号子图像共享相同的图像ID。这两个子层根据它们的参考结构具有不同的解码次序。因此，从相应图像ID开始的随机接入点图像的显示应该延迟，直到子层#2的解码的4号的子图像已经被解码为止。照此，当在不同的参考结构中解码多个子层时，可以延迟显示，直到一个图像已经被完全解码为止。

作为另一个示例，可以通过利用每个子层的随机接入点子图像之间的间隔来推导要开始显示的图像ID。例如，在图13中，子层#1的随机接入点子图像之间的间隔为三个子图像，而子层#2的间隔为五个子图像。因此，对于每15个子图像，两个子层可以拥有具有相同图像ID的随机接入点子图像。在一些实施方案中，如果两个子层具有不同的参考结构，则可以将图像级别的随机接入点限制在两个子层的子图像同时成为随机接入点的地方。可以通过两个层的随机接入子图像之间的间隔来推导关于其间隔的信息。

在本发明的其他实施方案中，可以将由视频编码装置传输的比特流分区为分别对应于子层的多个子比特流。也就是说，可以从由视频编码装置传输的比特流提取单独对应于特定子层的子比特流。视频解码装置可以解码对应于特定子层的子比特流。在这种情况下，可以通过利用比特流中的高级别语法元素来创建或修改子比特流的高级别语法结构(例如，SPS或PPS)中的一些语法元素。例如，由于子比特流是通过对子图像进行编码而创建的数据，因此应当修改用于要包括在子比特流中的图像大小的语法元素以指示子图像的大小。可以通过利用包括在由视频编码装置传输的比特流中的子图像布局信息来计算子图像的大小。将要包括在子比特流中的图像大小的语法元素修改为计算出的子图像的大小。

应当理解的是，可以以许多不同的方式实现上述示例性实施方案。在一个或更多个示例中描述的功能可以实现为硬件、软件、固件或者以上的任何组合。本说明书中描述的功能组件被标记为单元，以便更特别地强调它们的实现独立性。

另一方面，本发明中描述的各种方法或功能可以实现为存储在非易失性记录介质中的指令，所述指令可以由一个或更多个处理器读取和执行。非易失性记录介质包括例如以计算机系统可读取的形式存储数据的所有类型的记录装置。例如，非易失性记录介质包括诸如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存驱动器，光盘驱动器、磁性硬盘驱动器和固态驱动器(SSD)的存储介质。

尽管已经为了说明的目的描述了示例性实施方案，但是本领域技术人员将理解的是，在不脱离实施方案的思想和范围的情况下，各种修改和变化是可能的。为了简洁和清楚起见，已经描述了示例性实施方案。相应地，普通技术人员应当理解的是，实施方案的范围不受以上明确描述的实施方案限制，而是包括在权利要求书及其等同形式内。

Claims

1.一种用于处理比特流的方法，所述比特流通过对分区为多个子图像的图像序列进行编码而生成，所述方法包括：

从比特流解码指示分区结构的分区信息，在所述分区结构中，将属于序列的图像分区为子图像，由分区信息定义的分区结构对于序列中的所有图像是相同的；

对子图像的ID信息进行解码，并且通过利用所述ID信息来将ID映射到每个子图像；以及

通过利用映射的ID来重构至少一个子图像内的块，

其中，所述ID信息构造为允许将不同的ID映射到属于所述序列的图像内的同位子图像。

2.根据权利要求1所述的方法，包括对关于基本单元大小的信息进行解码，

其中，所述分区信息包括每个子图像的水平方向和竖直方向上的基本单元的数量。

3.根据权利要求2所述的方法，其中，所述分区信息包括用于识别位于每个子图像的左上方或右下方的基本单元的识别信息。

4.根据权利要求1所述的方法，其中，所述分区信息包括在由所述序列参考的序列参数集中。

5.根据权利要求4所述的方法，其中，ID映射包括：

解码指示是否在序列级别上应用ID映射的语法元素；

如果所述语法元素指示出在序列级别上应用ID映射，则从序列参数集解码ID信息，并且将相同的ID映射到属于所述序列的图像内的同位子图像；以及

如果所述语法元素指示出在序列级别上没有应用ID映射，则从图像参数集解码ID信息，并且将相同的ID映射到参考所述序列中的图像参数集的图像内的同位子图像。

6.根据权利要求1所述的方法，包括：

从比特流中提取与序列中的图像内的相同位置或具有相同ID的子图像相对应的子比特流；以及

通过利用包括在比特流中的高级语法来修改子比特流的高级语法。

7.一种视频编码方法，其用于通过对分区为多个子图像的图像序列进行编码来生成比特流，所述方法包括：

对用于指示分区结构的分区信息进行编码，在所述分区结构中，将属于序列的图像分区为子图像，由分区信息定义的分区结构对于所述序列中的所有图像是相同的；

对子图像的ID信息进行编码；以及

通过利用映射的ID来对至少一个子图像内的块进行编码，

8.根据权利要求7所述的方法，包括对关于基本单元大小的信息进行编码，

9.根据权利要求8所述的方法，其中，所述分区信息包括用于识别位于每个子图像的左上方或右下方的基本单元的识别信息。

10.根据权利要求7所述的方法，其中，所述分区信息包括在由所述序列参考的序列参数集中。

11.根据权利要求7所述的方法，其中，ID信息编码包括：

对指示是否在序列级别上应用ID映射的语法元素进行编码；

如果所述语法元素指示出在序列级别上应用ID映射，则将ID信息编码到序列参数集中；以及

如果所述语法元素指示出没有在序列级别上应用ID映射，则将ID信息编码到图像参数集中。

12.一种用于处理通过对分区为多个子图像的图像序列进行编码而生成的比特流的装置，所述装置包括：

解码单元，其配置为：

从比特流解码指示分区结构的分区信息，在所述分区结构中，将属于序列的图像分区为子图像，以及

对子图像的ID信息进行解码，并且通过利用ID信息将ID映射到每个子图像，由分区信息定义的分区结构对于序列中的所有图像是相同的；以及

视频重构单元，其配置为通过利用映射的ID来重构至少一个子图像内的块，

13.根据权利要求12所述的装置，其中，所述解码单元配置为：

对指示是否在序列级别上应用ID映射的语法元素进行解码，

如果所述语法元素指示出在序列级别上应用ID映射，则从序列参数集解码ID信息，并且将相同的ID映射到属于序列的图像内的同位子图像，以及

如果所述语法元素指示出没有在序列级别上应用ID映射，则从图像参数集解码ID信息，并且将相同的ID映射到参考所述序列中的图像参数集的图像内的同位子图像。