CN104604226B

CN104604226B - 具有时间可伸缩性的对视频进行解码的方法

Info

Publication number: CN104604226B
Application number: CN201380045893.5A
Authority: CN
Inventors: 崔秉斗; 朴永五; 金壹求; 金宰贤; 朴正辉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-07-03
Filing date: 2013-07-03
Publication date: 2018-04-17
Anticipated expiration: 2033-07-03
Also published as: KR20200094712A; BR112015000027A2; RU2677587C1; AU2016200679A1; US20200359036A1; CN108235033A; PH12016500493A1; CN108235033B; AU2016200679B2; PH12016500490B1; PH12016500490A1; MX367928B; WO2014007550A1; RU2649942C2; CA2878254C; PH12016500491A1; IN2015MN00146A; US11252423B2; CN108235034A; JP2015526016A

Abstract

提供一种具有时间可伸缩性的视频编码方法和设备以及一种具有时间可伸缩性的视频解码方法和设备。所述视频编码方法包括：将包括在画面序列中的画面划分为时间子层；基于在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被编码的画面，将时间层访问画面分类为第一时间层访问画面或第二时间层访问画面；将用于标识第一时间层访问画面和第二时间层访问画面的类型语法信息添加到包括时间层访问画面的传输单元数据。

Description

具有时间可伸缩性的对视频进行解码的方法

技术领域

本发明涉及对视频进行编码和解码，更具体地讲，涉及具有时间可伸缩性的视频编码和解码方法以及设备。

背景技术

诸如ITU-T H.261、ISO/IEC MPEG-1视觉、IUT-T H.262(ISO/IEC MPEG-2 视觉)、ITU-T H.264、ISO/IEC MPEG-4视觉和ITU-T H.264(ISO/IEC MPEG-4 AVC)的视频编解码器经由帧间预测或帧内预测对宏块执行预测编码，并通过使用编码的图像数据根据由每个视频编解码器定义的预定格式来产生和输出比特流。

根据现有技术，通过应用分层B画面或运动补偿的时间滤波(MCTF) 来提供具有时间可伸缩性的视频。

发明内容

技术问题

由于在时间层切换期间被访问的时间层访问画面之后被编码的画面可将在时间层访问画面之前被编码的画面用作参考画面，因此可提高视频压缩效率。

此外，可在网络适应层(NAL)单元中将时间层访问画面的传输单元数据和在时间层切换期间不能被解码的画面的传输单元数据彼此区分开。

解决方案

根据本发明的实施例，通过对在能够被在时间层访问画面之后被解码的画面参考的画面何时被限制以及何时不被限制进行区分，来对时间层访问画面进行分类，并且用于标识分类后的时间层访问画面的信息被添加到传输数据单元。

有益效果

根据本发明的一个或更多个实施例，可通过识别和丢弃关于无法在时间层访问画面之后被解码的画面的网络适应层(NAL)单元，跳过对画面进行解码的不必要处理，并节省硬件资源。此外，根据本发明的一个或更多个实施例，由于在时间层访问画面之后被编码的画面可将在时间层访问画面之前被编码的画面用作参考画面，因此可提高视频压缩效率。

附图说明

图1是根据本发明的实施例的视频编码设备的框图。

图2是根据本发明的实施例的视频解码设备的框图。

图3是示出根据本发明的实施例的编码单元的构思的示图。

图4是根据本发明的实施例的基于编码单元的图像编码器的框图。

图5是根据本发明的实施例的基于编码单元的图像解码器的框图。

图6是示出根据本发明的实施例的根据深度的较深层编码单元以及分区的示图。

图7是示出根据本发明的实施例的编码单元和变换单元之间的关系的示图。

图8是示出根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。

图9是根据本发明的实施例的根据深度的较深层编码单元的示图。

图10、图11和图12是示出根据本发明的实施例的编码单元、预测单元和频率变换单元之间的关系的示图。

图13是示出根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。

图14是根据本发明的实施例的具有时间可伸缩性的视频编码设备的示图。

图15是根据本发明的实施例的包括在画面序列中的被划分为时间子层的画面的示图。

图16是根据本发明的实施例的根据帧率显示的画面的示图。

图17是用于描述根据本发明的实施例的领导画面(leading picture)和第一时间层访问的示图。

图18是用于描述根据本发明的实施例的在时间层向上切换期间无法被解码的领导画面的示图。

图19是根据本发明的实施例的网络适应层(NAL)单元的示图。

图20是示出根据本发明的实施例的具有时间可伸缩性的视频编码方法的流程图。

图21是根据本发明的实施例的具有时间可伸缩性的视频解码设备的示图。

图22是示出根据本发明的实施例的具有时间可伸缩性的视频解码方法的流程图。

最佳实施方式

根据本发明的一方面，提供一种具有时间可伸缩性的视频编码方法，所述视频编码方法包括：将包括在画面序列中的画面划分为时间子层；基于在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被编码的画面，将时间层访问画面分类为第一时间层访问画面或第二时间层访问画面；将用于标识第一时间层访问画面和第二时间层访问画面的类型语法信息添加到包括时间层访问画面的传输单元数据。

根据本发明的另一方面，提供一种具有时间可伸缩性的视频编码设备，所述视频编码设备包括：视频编码器，将包括在画面序列中的画面划分为时间子层；复用器，基于在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被编码的画面，将时间层访问画面分类为第一时间层访问画面或第二时间层访问画面，并且，将用于标识第一时间层访问画面和第二时间层访问画面的类型语法信息添加到包括时间层访问画面的传输单元数据。

根据本发明的另一方面，提供一种具有时间可伸缩性的视频解码方法，所述视频解码方法包括：接收通过将包括在画面序列中的画面划分为时间子层并进行编码而获得的传输单元数据；通过使用包括在传输单元数据中的类型语法信息，识别这样的传输单元数据：该传输单元数据包括被访问以进行从更低时间子层到更高时间子层的时间层向上切换的时间层访问画面，其中，基于在时间层访问画面之后被解码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被解码的画面，时间层访问画面被分类为第一时间层访问画面或第二时间层访问画面。

根据本发明的另一方面，提供一种具有时间可伸缩性的视频解码设备，所述视频解码设备包括：接收器，接收通过将包括在画面序列中的画面划分为时间子层并进行编码而获得的传输单元数据；反向复用器，通过使用包括在传输单元数据中的类型语法信息，识别这样的传输单元数据：该传输单元数据包括被访问以进行从更低时间子层到更高时间子层的时间层向上切换的时间层访问画面，其中，基于在时间层访问画面之后被解码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被解码的画面，时间层访问画面被分类为第一时间层访问画面或第二时间层访问画面。

具体实施方式

在下文中，将参照附图更加全面地描述本发明的一个或更多个实施例。在描述本发明的一个或更多个实施例的同时，图像可包括静止图像或运动图像，并且还可被称为视频。此外，在描述本发明的一个或更多个实施例的同时，图像帧还可被称为画面。

图1是根据本发明的实施例的视频编码设备的框图。

根据实施例的视频编码设备100包括最大编码单元划分器110、编码单元确定器120和输出单元130。

最大编码单元划分器110可基于图像的当前画面的最大编码单元来划分当前画面，其中，最大编码单元是具有最大尺寸的编码单元。如果当前画面大于最大编码单元，则可将当前画面的图像数据划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128或 256×256的数据单元，其中，数据单元的形状是宽度和长度为2的若干次方的正方形。图像数据可根据至少一个最大编码单元被输出到编码单元确定器 120。

根据实施例的编码单元可由最大尺寸和深度表征。深度表示编码单元从最大编码单元被空间划分的次数，并且随着深度加深，根据深度的较深层编码单元可从最大编码单元被划分到最小编码单元。最大编码单元的深度为最高深度，最小编码单元的深度为最低深度。由于随着最大编码单元的深度加深，与每个深度相应的编码单元的尺寸减小，因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。

如上所述，当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元，并且每个最大编码单元可包括根据深度被划分的较深层编码单元。由于根据深度对根据实施例的最大编码单元进行划分，因此可根据深度对包括在最大编码单元中的空间域的图像数据进行分层分类。

可预先设置编码单元的最大深度和最大尺寸，其中，所述最大深度和最大尺寸限制最大编码单元的高度和宽度被分层划分的总次数。

编码单元确定器120对通过根据深度对最大编码单元的区域进行划分而获得的至少一个划分区域进行编码，并且根据所述至少一个划分区域来确定用于输出最终编码结果的深度。换言之，编码单元确定器120通过根据当前画面的最大编码单元以根据深度的较深层编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定编码深度。将确定的编码深度和根据最大编码单元的图像数据输出到输出单元130。

基于与等于或低于最大深度的至少一个深度相应的较深层编码单元，对最大编码单元中的图像数据进行编码，并且基于每个较深层编码单元比较编码结果。在对较深层编码单元的编码误差进行比较之后，可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个编码深度。

随着编码单元根据深度而被分层地划分，最大编码单元的尺寸被划分，并且编码单元的数量增加。另外，即使在一个最大编码单元中编码单元与同一深度相应，仍通过分别测量每个编码单元的数据的编码误差来确定是否将与同一深度相应的每个编码单元划分到更低深度。因此，即使数据被包括在一个最大编码单元中，根据深度的编码误差根据区域而不同，因此编码深度可根据区域而不同。因此，可针对一个最大编码单元确定一个或更多个编码深度，并且可根据一个或更多个编码深度的编码单元来对最大编码单元的数据进行划分。

因此，根据实施例的编码单元确定器120可确定包括在当前最大编码单元中的具有树结构的编码单元。根据本发明的实施例的“具有树结构的编码单元”包括在最大编码单元中包括的所有较深层编码单元中的与被确定为编码深度的深度相应的编码单元。可根据最大编码单元的相同区域中的深度分层地确定编码深度的编码单元，并可在不同区域中独立地确定编码深度的编码单元。类似地，当前区域中的编码深度可独立于另一区域的编码深度被确定。

根据实施例的最大深度是与从最大编码单元到最小编码单元所执行的划分的次数相关的索引。根据实施例的第一最大深度可表示从最大编码单元到最小编码单元所执行划分的总次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如，当最大编码单元的深度是0时，对最大编码单元划分一次的编码单元的深度可被设置为1，对最大编码单元划分两次的编码单元的深度可被设置为2。在这种情况下，如果最小编码单元是通过对最大编码单元划分四次所获得的编码单元，则存在深度0、1、2、3和4的5个深度等级，并因此第一最大深度可被设置为4，第二最大深度可被设置为5。

可根据最大编码单元执行预测编码和频率变换。还根据最大编码单元，基于根据等于或小于最大深度的深度的较深层编码单元来执行预测编码和变换。

由于每当根据深度对最大编码单元进行划分时，较深层编码单元的数量增加，因此将必须对随着深度加深而产生的所有较深层编码单元执行包括预测编码和频率变换的编码。为了便于解释，在至少一个最大编码单元中，现在将基于当前深度的编码单元来描述预测编码和频率变换。

根据实施例的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、频率变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。

例如，视频编码设备100不仅可选择用于对图像数据进行编码的编码单元，还可选择不同于编码单元的数据单元，以便对编码单元中的图像数据执行预测编码。

为了在最大编码单元中执行预测编码，可基于与编码深度相应的编码单元(即，基于不再被划分为与更低深度相应的编码单元的编码单元)来执行预测编码。以下，不再被划分且成为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元获得的分区可包括预测单元以及通过对预测单元的高度和宽度中的至少一个进行划分而获得的数据单元。

例如，当2N×2N(其中，N是正整数)的编码单元不再被划分时，所述编码单元成为2N×2N的预测单元，并且分区的尺寸可以是2N×2N、2N×N、 N×2N或N×N。分区类型的示例包括通过对预测单元的高度或宽度进行对称地划分而获得的对称分区、通过对预测单元的高度或宽度进行非对称地划分 (诸如，1：n或n:1)而获得的分区、通过对预测单元进行几何地划分而获得的分区、以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外，可仅对2N×2N的分区执行跳过模式。可对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。

根据实施例的视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与编码单元不同的数据单元，来对编码单元中的图像数据执行频率变换。

为了在编码单元中执行频率变换，可基于具有小于或等于编码单元的尺寸的数据单元来执行频率变换。例如，用于频率变换的数据单元可包括帧内模式的数据单元和帧间模式的数据单元。

用作频率变换的基础的数据单元现在将被称为“变换单元”。与编码单元类似，编码单元中的变换单元可被递归地划分为更小尺寸的变换单元，因此可基于根据变换深度的具有树结构的变换单元，对编码单元中的残差数据进行划分。

还可在根据实施例的变换单元中设置变换深度，其中，变换深度指示通过对编码单元的高度和宽度进行划分而达到变换单元所执行的划分的次数。例如，在2N×2N的当前编码单元中，当变换单元的尺寸是2N×2N时，变换深度可以是0，当变换单元的尺寸是N×N时，变换深度可以是1，当变换单元的尺寸是N/2×N/2时，变换深度可以是2。也就是说，还可根据变换深度设置具有树结构的变换单元。

根据与编码深度相应的编码单元的编码信息不仅要求关于编码深度的信息，还要求关于与预测编码和频率变换相关的信息的信息。因此，编码单元确定器120不仅确定具有最小编码误差的编码深度，还确定预测单元中的分区类型、根据预测单元的预测模式以及用于频率变换的变换单元的尺寸。

随后将参照图3至图12详细描述根据实施例的最大编码单元中的具有树结构的编码单元以及确定分区的方法。

编码单元确定器120可通过使用基于拉格朗日乘数的率失真(RD)优化，来测量根据深度的较深层编码单元的编码误差。

输出单元130在比特流中输出最大编码单元的图像数据和关于根据编码深度的编码模式的信息，其中，所述最大编码单元的图像数据基于由编码单元确定器120确定的至少一个编码深度被编码。

可通过对图像的残差数据进行编码来获得编码图像数据。

关于根据编码深度的编码模式的信息可包括关于编码深度的信息、关于在预测单元中的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。

可通过使用根据深度的划分信息来定义关于编码深度的信息，其中，根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是编码深度，则对当前深度的当前编码单元执行编码，因此可将划分信息定义为不将当前编码单元划分到更低深度。可选地，如果当前编码单元的当前深度不是编码深度，则对更低深度的编码单元执行编码，并因此可将划分信息定义为对当前编码单元进行划分来获得更低深度的编码单元。

如果当前深度不是编码深度，则对被划分到更低深度的编码单元的编码单元执行编码。由于在当前深度的一个编码单元中存在更低深度的至少一个编码单元，因此对更低深度的每个编码单元重复执行编码，并因此可对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树结构的编码单元，并且针对编码深度的编码单元确定关于至少一个编码模式的信息，所以可针对一个最大编码单元确定关于至少一个编码模式的信息。另外，由于根据深度对数据进行分层划分，因此最大编码单元的数据的编码深度可根据位置而不同，因此可针对数据设置关于编码深度和编码模式的信息。

因此，根据实施例的输出单元130可将关于相应的编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。

根据实施例的最小单元是通过将构成最低深度的最小编码单元划分为4 份而获得的矩形数据单元。可选择地，最小单元可以是可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大矩形数据单元。

例如，通过输出单元130输出的编码信息可被分类为根据基于深度的较深层编码单元的编码信息和根据预测单元的编码信息。根据基于深度的较深层编码单元的编码信息可包括关于预测模式的信息和关于分区尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息、以及关于帧内模式的插值方法的信息。根据画面、条带或GOP定义的关于编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流的头中。

最大编码单元划分器和编码单元确定器120与视频编码层(VCL)相应，其中，视频编码层通过针对形成图像序列的每个图像帧根据编码单元执行运动预测和运动补偿来确定形成图像序列的每个图像帧的参考帧，并通过使用确定的参考帧对每个图像帧进行编码。

在根据最简单的实施例的视频编码设备100中，较深层编码单元是通过将更高深度的编码单元(更高一层)的高度或宽度划分为两份而获得的编码单元。换言之，在当前深度的编码单元的尺寸是2N×2N时，更低深度的编码单元的尺寸是N×N。另外，尺寸为2N×2N的当前深度的编码单元可包括最多4个所述更低深度的编码单元。

因此，根据实施例的视频编码设备100可基于考虑当前画面的特征而确定的最大编码单元的尺寸和最大深度，通过针对每个最大编码单元确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外，由于可通过使用各种预测模式和频率变换中的任意一个对每个最大编码单元执行编码，因此可考虑各种图像尺寸的编码单元的图像特征来确定最优编码模式。

因此，如果以传统宏块对具有高的分辨率或大数据量的图像进行编码，则每个画面的宏块的数量极度增加。因此，针对每个宏块产生的压缩信息的条数增加，因此难以发送压缩的信息，并且数据压缩效率降低。然而，通过使用根据实施例的视频编码设备，由于在考虑图像的尺寸的同时增加编码单元的最大尺寸，并同时在考虑图像的特征的同时调整编码单元，因此可提高图像压缩效率。

图2是根据本发明的实施例的视频解码设备的框图。

视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。用于视频解码设备200的各种操作的各种术语(诸如编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与参照图1和视频编码设备100描述的定义相同。

接收器210接收和解析编码视频的比特流。图像数据和编码信息提取器 220从解析的比特流，针对每个编码单元提取编码图像数据，并将提取的图像数据输出到图像数据解码器230，其中，编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头提取关于当前画面的编码单元的最大尺寸的信息。

另外，图像数据和编码信息提取器220从解析的比特流，根据每个最大编码单元，提取关于具有树结构的编码单元的编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。换言之，比特流中的图像数据被划分为最大编码单元，使得图像数据解码器230 针对每个最大编码单元对图像数据进行解码。

可针对关于至少一个编码单元的信息设置关于根据最大编码单元的编码深度和编码模式的信息，关于根据每个编码深度的编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。另外，根据深度的划分信息可被提取为关于编码深度的信息。

由图像数据和编码信息提取器220提取的关于根据每个最大编码单元的编码深度和编码模式的信息是这样的关于编码深度和编码模式的信息：该信息被确定为在编码器(诸如，视频编码设备100)根据每个最大编码单元对根据深度的每个较深层编码单元重复地执行编码时产生最小编码误差。因此，视频解码设备200可通过根据产生最小编码误差的编码模式对图像数据进行解码来恢复图像。

由于根据实施例的关于编码深度和编码模式的编码信息可被分配给相应的编码单元、预测单元和最小单元中的预定数据单元，因此图像数据和编码信息提取器220可根据预定数据单元，提取关于编码深度和编码模式的信息。当关于相应最大编码单元的编码深度和编码模式的信息根据预定数据单元被记录时，可将具有相同的关于编码深度和编码模式的信息的预定数据单元推断为是包括在同一最大编码单元中的数据单元。

图像数据解码器230基于关于根据最大编码单元的编码深度和编码模式的信息，通过对每个最大编码单元中的图像数据进行解码，来恢复当前画面。换言之，图像数据解码器230可基于提取出的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区类型、预测模式和变换单元的信息，对编码的图像数据进行解码。解码处理可包括预测(包含帧内预测和运动补偿)和频率逆变换。

图像数据解码器230可基于关于根据编码深度的编码单元的预测单元的分区类型和预测模式的信息，根据每个编码单元的分区和预测模式，执行帧内预测或运动补偿。

此外，图像数据解码器230可基于关于根据编码深度的编码单元的变换单元的尺寸的信息，根据编码单元中的每个变换单元执行频率逆变换，以便根据最大编码单元执行频率逆变换。

图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的编码深度。如果划分信息指示图像数据在当前深度中不再被划分，则当前深度是编码深度。因此，图像数据解码器230可通过使用关于用于当前最大编码单元的图像数据的预测单元的分区类型、预测模式和变换单元的尺寸的信息，对当前深度的编码数据进行解码。

换言之，可通过观察被分配给编码单元、预测单元和最小单元中的预定数据单元的编码信息集来收集包含包括相同划分信息的编码信息的数据单元，并且收集的数据单元可被认为是将由图像数据解码器230以相同编码模式进行解码的一个数据单元。

根据实施例的视频解码设备200可获得关于当对每个最大编码单元递归地执行编码时产生最小编码误差的编码单元的信息，并使用所述信息来对当前画面进行解码。换言之，可对在每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元进行解码。

因此，即使图像数据具有高分辨率和大数据量，也可根据编码单元的尺寸和编码模式，有效地对图像数据进行解码和恢复，其中，通过使用从编码器接收到的关于最优编码模式的信息，根据图像的特征自适应地确定所述编码单元的尺寸和编码模式。

现在将参照图3至图13来描述根据本发明的实施例的确定具有树结构的编码单元、预测单元和变换单元的方法。

图3是用于描述根据本发明的实施例的分层编码单元的构思的示图。

编码单元的尺寸可被表示为宽度×高度，并且编码单元的尺寸的示例可包括64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、 32×64或32×32的分区，32×32的编码单元可被划分为32×32、32×16、16×32 或16×16的分区，16×16的编码单元可被划分为16×16、16×8、8×16或8×8 的分区，8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据310中，分辨率被设置为1920×1080，编码单元的最大尺寸被设置为64，最大深度被设置为2。在视频数据320中，分辨率被设置为 1920×1080，编码单元的最大尺寸被设置为64，最大深度被设置为3。在视频数据330中，分辨率被设置为352×288，编码单元的最大尺寸被设置为16，最大深度被设置为1。图3中示出的最大深度表示从最大编码单元到最小编码单元的划分总次数。

如果分辨率高或数据量大，则编码单元的最大尺寸可能较大，从而不仅提高编码效率，而且准确地反映图像的特征。因此，具有比视频数据330更高分辨率的视频数据310和320的编码单元的最大尺寸可以是64。

由于视频数据310的最大深度是2，因此由于通过对最大编码单元划分两次，深度加深至两层，因此视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元和长轴尺寸为32和16的编码单元。同时，由于视频数据330的最大深度是1，因此由于通过对最大编码单元划分一次，深度加深至一层，因此视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元和长轴尺寸为8的编码单元。

由于视频数据320的最大深度是3，因此由于通过对最大编码单元划分三次，深度加深至3层，因此视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元和长轴尺寸为32、16和8的编码单元。随着深度加深，详细信息可被更精确地表示。

根据实施例的图像编码器400执行视频编码设备100的编码单元确定器 120的操作来对图像数据进行编码。换言之，帧内预测器410对当前帧405 中的帧内模式下的编码单元执行帧内预测，运动估计器420和运动补偿器425 通过使用当前帧405和参考帧495，对当前帧405中的帧间模式下的编码单元执行帧间估计和运动补偿。

从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过频率变换器430和量化器440被输出为量化后的变换系数。量化后的变换系数通过反量化器460和频率逆变换器470被恢复为空间域中的数据，恢复的空间域中的数据在通过去块单元480和环路滤波单元490后处理之后被输出为参考帧495。量化后的变换系数可通过熵编码器450被输出为比特流455。

为了在根据实施例的视频编码设备100中应用图像编码器400，图像编码器400的所有元件(即，帧内预测器410、运动估计器420、运动补偿器 425、频率变换器430、量化器440、熵编码器450、反量化器460、频率逆变换器470、去块单元480和环路滤波单元490)必须在考虑每个最大编码单元的最大深度的同时，基于具有树结构的编码单元中的每个编码单元执行操作。

具体地，帧内预测器410、运动估计器420和运动补偿器425必须在考虑当前最大编码单元的最大尺寸和最大深度的同时确定具有树结构的编码单元中的每个编码单元的分区和预测模式，频率变换器430必须确定具有树结构的编码单元中的每个编码单元中的变换单元的尺寸。

解析器510从比特流505解析将被解码的编码图像数据和解码所需的关于编码的信息。在图5中，解析器510和熵解码器520被示出为单个的组件，但是由解析器510执行的获得图像数据和获得与编码图像数据有关的语法信息的操作可选择性地由熵解码器520执行。

编码图像数据通过熵解码器520和反量化器530被输出为反量化的数据，反量化的数据通过频率逆变换器540被恢复为空间域中的图像数据。

针对空间域中的图像数据，帧内预测器550对帧内模式下的编码单元执行帧内预测，运动补偿器560通过使用参考帧585对帧间模式下的编码单元执行运动补偿。

通过帧内预测器550和运动补偿器560的恢复的图像帧数据可通过去块单元570被后处理，并被输出到解码画面缓冲器(DPB)580。DPB 580存储解码的图像帧，以便存储参考帧，改变图像帧的显示顺序，和输出图像帧。 DPB 580存储解码的图像帧，并通过使用最大解码帧缓冲语法 (max_dec_frame buffering)来设置对图像序列进行正常解码所需的缓冲器的最大容量，其中，所述最大解码帧缓冲语法指示对从解析器510或熵解码器520输出的图像帧进行正常解码所需的最大缓冲器容量。

为了在视频解码设备200的图像数据解码器230中对图像数据进行解码，根据实施例的图像解码器500可执行在解析器510的操作被执行之后执行的操作。

为了在根据实施例的视频解码设备200中应用图像解码器500，图像解码器500的所有元件(即，解析器510、熵解码器520、反量化器530、频率逆变换器540、帧内预测器550、运动补偿器560和去块单元570)可针对每个最大编码单元基于具有树结构的编码单元执行解码操作。具体地，帧内预测器550和运动补偿器560可针对具有树结构的每个编码单元确定分区和预测模式，频率逆变换器540可针对每个编码单元确定变换单元的尺寸。

根据实施例的视频编码设备100和根据实施例的视频解码设备200使用分层编码单元以考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度，或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据预先设置的编码单元的最大尺寸来确定根据深度的较深层编码单元的尺寸。

在根据实施例的编码单元的分层结构600中，编码单元的最大高度和最大宽度均是64，最大深度是4。由于深度沿着根据实施例的编码单元的分层结构600的垂直轴加深，因此较深层编码单元的高度和宽度均被划分。另外，预测单元和分区沿着编码单元的分层结构600的水平轴被示出，其中，所述预测单元和分区是对每个较深层编码单元进行预测编码的基础。

换言之，在编码单元的分层结构600中，编码单元610是最大编码单元，其中，深度为0，尺寸(即，高度乘宽度)为64×64。深度沿着垂直轴加深，并且存在尺寸为32×32和深度为1的编码单元620、尺寸为16×16和深度为2 的编码单元630、尺寸为8×8和深度为3的编码单元640、以及尺寸为4×4 和深度为4的编码单元650。尺寸为4×4和深度为4的编码单元650是最小编码单元。

编码单元的预测单元和分区根据每个深度沿着水平轴被排列。换言之，如果尺寸为64×64和深度为0的编码单元610是预测单元，则可将预测单元划分为包括在编码单元610中的分区，即，尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614或尺寸为32×32的分区616。

类似地，可将尺寸为32×32和深度为1的编码单元620的预测单元划分为包括在编码单元620中的分区，即，尺寸为32×32的分区620、尺寸为32×16 的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626。

类似地，可将尺寸为16×16和深度为2的编码单元630的预测单元划分为包括在编码单元630中的分区，即，包括在编码单元630中的尺寸为16×16 的分区、尺寸为16×8的分区632、尺寸为8×16的分区634和尺寸为8×8的分区636。

类似地，可将尺寸为8×8和深度为3的编码单元640的预测单元划分为包括在编码单元640中的分区，即，包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644和尺寸为4×4的分区 646。

最后，尺寸为4×4和深度为4的编码单元650是最小编码单元和最低深度的编码单元。编码单元650的预测单元仅被分配给尺寸为4×4的分区。

为了确定最大编码单元610的编码深度，根据实施例的视频编码设备100 的编码单元确定器120必须对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。

随着深度加深，包括具有相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如，需要四个与深度2相应的编码单元来覆盖包括在与深度1相应的一个编码单元中的数据。因此，为了根据深度比较相同数据的编码结果，与深度1相应的编码单元和四个与深度2相应的编码单元必须均被编码。

为了根据每个深度执行编码，可沿着编码单元的分层结构600的水平轴，通过对较深层编码单元中的每个预测单元执行编码，来选择作为相应深度下的最小编码误差的代表性编码误差。可选地，可通过随着深度沿着编码单元的分层结构600的垂直轴加深，针对每个深度执行编码来比较根据深度的代表性编码误差，以搜索最小编码误差。在最大编码单元610中的具有最小编码误差的深度和分区可被选为最大编码单元610的编码深度和分区类型。

图7是用于描述根据本发明的实施例的编码单元和变换单元之间的关系的示图。

根据实施例的视频编码设备100或根据实施例的视频解码设备200针对每个最大编码单元，根据具有小于或等于最大编码单元的尺寸的编码单元，对图像进行编码或解码。可基于不大于相应编码单元的数据单元，来选择用于在编码期间进行频率变换的变换单元的尺寸。

例如，在根据实施例的视频编码设备100或根据实施例的视频解码设备 200中，如果当前编码单元710的尺寸是64×64，则可通过使用尺寸为32×32 的变换单元720来执行频率变换。

此外，可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的每个变换单元执行频率变换，来对尺寸为64×64的编码单元710的数据进行编码，然后可选择具有最小误差的变换单元。

图8是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。

根据实施例的视频编码设备100的输出单元130可对与编码深度相应的每个编码单元的关于分区类型的信息800、关于预测模式的信息810以及关于变换单元尺寸的信息820进行编码，并将信息800、信息810和信息820 作为关于编码模式的信息来发送。

关于分区类型的信息800指示关于通过对当前编码单元的预测单元进行划分而获得的分区的形状的信息，其中，所述分区是用于对当前编码单元进行预测编码的数据单元。例如，尺寸为2N×2N的当前编码单元CU_0可被划分为以下分区中的任意一种：尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。这里，关于当前编码单元的分区类型的信息800被设置为指示以下分区中的一种：尺寸为 2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。

关于预测模式的信息810指示每个分区的预测模式。例如，关于预测模式的信息810可指示对由信息800指示的分区执行的预测编码的模式，即，帧内模式812、帧间模式814或跳过模式816。

此外，关于变换单元尺寸的信息820指示当对当前编码单元执行频率变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧内变换单元828。

根据实施例的视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元，提取并使用用于解码的关于分区类型的信息800、关于预测模式的信息810和关于变换单元尺寸的信息820。

划分信息可用来指示深度的改变。划分信息指示当前深度的编码单元是否被划分为更低深度的编码单元。

用于对深度为0和尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括以下分区类型的分区：尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916和尺寸为N_0×N_0的分区类型918。图9仅示出了通过对称地划分预测单元910 而获得的分区类型912至918，但是分区类型不限于此，并且预测单元910 的分区可包括非对称分区、具有预定形状的分区和具有几何形状的分区。

根据每种分区类型，对尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0 的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区重复地执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和 N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为 2N_0×2N_0的分区执行跳过模式下的预测编码。

如果尺寸为2N_0×2N_0、2N_0×N_0和N_0×2N_0的分区类型912至916 中的一个分区类型中编码误差最小，则可不将预测单元910划分到更低深度。

如果在尺寸为N_0×N_0的分区类型918中编码误差最小，则深度可从0 改变到1以在操作920中划分分区类型918，并对深度为2和尺寸为N_0×N_0 的编码单元930重复地执行编码来搜索最小编码误差。

用于对深度为1和尺寸为2N_1×2N_1(＝N_0×N_0)的编码单元930进行预测编码的预测单元940可包括以下分区类型的分区：尺寸为2N_1×2N_1 的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946以及尺寸为N_1×N_1的分区类型948。

如果在尺寸为N_1×N_1的分区类型948中编码误差最小，则深度从1 改变到2以在操作950中划分分区类型948，并对深度为2和尺寸为N_2×N_2 的编码单元960重复执行编码来搜索最小编码误差。

当最大深度是d时，根据每个深度的划分信息可被设置直到深度变成 d-1，并且划分信息可被设置直到深度变为d-2。换句话说，当编码被执行直到在与d-2的深度相应的编码单元在操作970中被划分之后深度是d-1时，用于对深度为d-1和尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括以下分区类型的分区：尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1) 的分区类型996和尺寸为N_(d-1)×N_(d-1)的分区类型998。

可对分区类型992至998中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区重复地执行预测编码，以搜索具有最小编码误差的分区类型。

即使当尺寸为N_(d-1)×N_(d-1)的分区类型998具有最小编码误差时，由于最大深度是d，因此深度为d-1的编码单元CU_(d-1)也不再被划分到更低深度，用于当前最大编码单元900的编码深度被确定为d-1，并且当前最大编码单元900的分区类型可被确定为N_(d-1)×N_(d-1)。此外，由于最大深度是 d，因此不设置深度为d-1的编码单元952的划分信息。

数据单元999可被称为用于当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过将具有最低编码深度的最小编码单元划分为4份而获得的矩形数据单元。通过重复地执行编码，视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度以确定编码深度，并将相应分区类型和预测模式设置为编码深度的编码模式。

这样，在所有深度1至d中对根据深度的最小编码误差进行比较，并且具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为关于编码模式的信息被编码并发送。另外，由于编码单元必须从0的深度被划分到编码深度，因此必须仅将编码深度的划分信息设置为0，并且将除了编码深度以外的深度的划分信息设置为1。

根据实施例的视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度和预测单元的信息，来对编码单元912 进行解码。根据实施例的视频解码设备200可通过使用根据深度的划分信息，将划分信息为0的深度确定为编码深度，并且使用关于相应深度的编码模式的信息来进行解码。

图10至图12是用于描述根据本发明的实施例的在编码单元、预测单元和频率变换单元之间的关系的示图。

编码单元1010是最大编码单元中的由根据实施例的视频编码设备100 确定的与编码深度相应的编码单元。预测单元1060是每个编码单元1010的预测单元的分区，变换单元1070是每个编码单元1010的变换单元。

当在编码单元1010中最大编码单元的深度是0时，编码单元1012和1054 的深度是1，编码单元1014、1016、1018、1028、1050和1052的深度是2，编码单元1020、1022、1024、1026、1030、1032和1048的深度是3，编码单元1040、1042、1044和1046的深度是4。

在预测单元1060中，通过划分编码单元来获得一些分区1014、1016、 1022、1032、1048、1050、1052和1054。换句话说，分区1014、1022、1050 和1054中的分区类型的尺寸是2N×N，分区1016、1048和1052中的分区类型的尺寸是N×2N，分区1032的分区类型的尺寸为N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。

在小于编码单元1052的数据单元中的变换单元1070中，对编码单元 1052的图像数据执行频率变换或频率逆变换。另外，在尺寸或形状方面，变换单元1070中的变换单元1014、1016、1022、1032、1048、1050和1052不同于预测单元1060中的变换单元1014、1016、1022、1032、1048、1050和 1052。换句话说，根据实施例的视频编码设备100和根据实施例的视频解码设备200可对同一编码单元中的数据单元独立地执行帧内预测/运动估计/运动补偿以及频率变换/频率逆变换。

因此，对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码来确定最优编码单元，从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表1示出可由根据实施例的视频编码设备100和根据实施例的视频解码设备200设置的编码信息。

[表1]

根据实施例的视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息，根据实施例的视频解码设备200的图像数据和编码信息提取器220可从接收到的比特流提取关于具有树结构的编码单元的编码信息。

划分信息指示是否将当前编码单元划分为更低深度的编码单元。如果当前深度d的划分信息是0，则当前编码单元不再被划分为更低深度的深度是编码深度，从而可针对所述编码深度来定义关于分区类型、预测模式和变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分，则对更低深度的四个划分编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一种。可在所有分区类型中定义帧内模式和帧间模式，仅在尺寸为2N×2N的分区类型中定义跳过模式。

关于分区类型的信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型，以及通过非对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和 nR×2N的非对称分区类型。可通过按1:3和3:1来划分预测单元的高度来分别获得尺寸为2N×nU和2N×nD的非对称分区类型，可通过按1:3和3:1来划分预测单元的宽度来分别获得尺寸为nL×2N和nR×2N的非对称分区类型。

可将变换单元的尺寸设置为帧内模式下的两种类型和帧间模式下的两种类型。换句话说，如果变换单元的划分信息是0，则变换单元的尺寸可被设置为2N×2N，即当前编码单元的尺寸。如果变换单元的划分信息是1，则可通过对当前编码单元进行划分来获得变换单元。另外，如果尺寸为2N×2N的当前编码单元的分区类型是对称分区类型时，则变换单元的尺寸可被设置为 N×N，如果当前编码单元的分区类型是非对称分区类型，则变换单元的尺寸可被设置为N/2×N/2。

关于根据实施例的具有树结构的编码单元的编码信息可被分配给与编码深度相应的编码单元、预测单元和最小单元中的至少一个。与编码深度相应的编码单元可包括包含相同编码信息的预测单元和最小单元中的至少一个。

因此，通过比较邻近数据单元的编码信息来确定邻近数据单元是否被包括在与编码深度相应的同一编码单元中。另外，通过使用数据单元的编码信息来确定与编码深度相应的相应编码单元，并因此可确定最大编码单元中的编码深度的分布。

因此，如果通过参考邻近数据单元来对当前编码单元进行预测，则可直接参考并使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。

可选地，如果通过参考邻近数据单元来对当前编码单元进行预测编码，则通过使用与当前编码单元邻近的数据单元的编码信息来搜索较深层编码单元中的与当前编码单元邻近的数据单元，并可参考搜索到的邻近编码单元以对当前编码单元进行预测编码。

图13是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。

最大编码单元1300包括多个编码深度的编码单元1302、1304、1306、 1312、1314、1316和1318。这里，由于编码单元1318是一个编码深度的编码单元，因此划分信息可以被设置为0。可将关于尺寸为2N×2N的编码单元 1318的分区类型的信息设置为以下分区类型中的一种：尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD 的分区类型1334、尺寸为nL×2N的分区类型1336以及尺寸为nR×2N的分区类型1338。

当分区类型被设置为对称(即，尺寸为2N×2N的分区类型1322、尺寸为N×2N的分区类型1326或尺寸为N×N的分区类型1328)时，如果变换单元的划分信息(TU尺寸标记)是0，则可设置尺寸为2N×2N的变换单元1342，如果TU尺寸标记是1，则可设置尺寸为N×N的变换单元1344。

当分区类型被设置为非对称(即，尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336或尺寸为 nR×2N的分区类型1338)时，如果TU尺寸标记是0，则可设置尺寸为2N×2N 的变换单元1352，如果TU尺寸标记是1，则可设置尺寸为N/2×N/2的变换单元1354。

参照图14，根据实施例的视频编码设备1400包括视频编码器1410和复用器1420。

视频编码器1410与以上描述的图1的视频编码设备100相应，操作视频数据的编码处理的VCL基于以上描述的分层编码单元对视频数据进行编码。复用器1420通过使用这样的传输数据单元来对视频数据进行复用：所述传输数据单元适用于通信信道的协议或存储介质的存储格式、视频编辑系统或媒体框架。如以下将描述的，复用器1420可通过使用作为网络抽象层(NAL) 中的传输单元的NAL单元来发送视频数据。

为了提供具有时间可伸缩性的视频数据，视频编码器1410可将包括在画面序列中的画面划分为时间子层。时间子层表示一组NAL单元，所述一组 NAL单元包括具有相同时间标识符(temporal_id)的画面或关于这种画面的信息。

复用器1420可基于在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被编码的画面，来将时间层访问画面分类为第一时间层访问画面或第二时间层访问画面，并且复用器1420可将用于标识第一时间层访问画面和第二时间层访问画面的类型语法信息添加到包括时间层访问画面的传输单元数据。解码顺序和编码顺序表示画面分别被解码器和编码器处理的顺序，并且编码顺序可与解码顺序相同。因此，在描述本发明时，编码顺序可表示解码顺序，反之亦然。

时间层访问画面是这样的画面：该画面通过被包括于在发生从更低时间子层到更高时间子层的切换的情况下被访问的更高时间子层中而在向上切换之后被首先编码(或解码)。如随后将描述的，时间层访问画面是这样的画面：该画面参考至少在发生向上切换时可用的画面。第一时间层访问画面表示这样的时间层访问画面，其中，在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比该时间层访问画面更高的时间子层的画面能够参考在该时间层访问画面之前被编码的画面。第二时间层访问画面表示这样的时间层访问画面，其中，在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比该时间层访问画面更高的时间子层的画面不能够参考在该时间层访问画面之前被编码的画面。

图15是根据本发明的实施例的包括在画面序列中的被划分为时间子层的画面的示图。在图15和图16中，I、B和P分别表示I画面、B画面和P 画面，在I、B或P之后的编号表示显示顺序的编号。在图15中，箭头的方向表示参考方向。例如，I0画面1500被用作B1画面1531的参考画面。

参照图15，视频编码器1410可通过将包括在画面序列中的I0画面1500 至B7画面1534分类为时间子层并将temporal_id分配给包括在每个时间子层中的I0画面1500至B7画面1534，来提供具有时间可伸缩性的视频数据。

详细地，属于最低时间子层的I0画面1500和P8画面1501的temporal_id 的值被设置为0。B4画面1510属于temporal_id为1的时间子层。B2画面1520 和B6画面1521属于temporal_id为2的时间子层。B1画面1531、B3画面 1532、B5画面1533和B7画面1534属于temporal_id为3的时间子层。

图16是根据本发明的实施例的根据帧率显示的画面的示图。

参照图15和图16，当帧率为7.5Hz时，在最低时间子层且temporal_id 为0的I0画面和P8画面被显示。当帧率为15Hz时，temporal_id为1的B4 画面以及temporal_id为0的画面I0和P8被显示。当帧率为30Hz时， temporal_id为0、1和2的I0画面、B2画面、B4画面、B6画面和P8画面被显示。当帧率为60Hz时，temporal_id为0、1、2和4的I0画面、B1画面、 B2画面、B3画面、B4画面、B5画面、B6画面、B7画面和P8画面被显示。

这样，可通过根据帧率对具有低于或等于预定值的temploral_id的所有画面进行解码，并显示解码的画面，来实现时间可伸缩性。换句话说，可通过根据帧率对包括在低于或等于temporal_id为预定值的更高时间子层的所有时间子层中的画面进行解码，并显示解码的画面，来实现时间可伸缩性。

可将帧率的改变定义为时间层切换。将从低帧率到高帧率的改变定义为时间层向上切换，将从高帧率到低帧率的改变定义为时间层向下切换。由于可通过去除temporal_id高于预定值的画面来执行时间层向下切换，因此可在任何时间执行时间层向下切换。例如，参照回图16，当帧率从30Hz改变为 7.5Hz时，可通过从temporal_id为0、1和2的I0画面、B2画面、B4画面、 B6画面和P8画面之中排除temporal_id等于或高于1的画面(即，B2画面、 B4画面和B6画面)来仅选择并显示I0画面和P8画面，以执行时间层向下切换。

另一方面，时间层向上切换并不总是可行的。例如，如果属于更高时间子层的画面参考在向上切换期间不可用的再上层(further upper)画面，则属于所述更高时间子层的画面无法被解码。假设从temporal_id为0的时间子层到temporal_id为1的更高时间子层产生时间层向上切换。如果属于 temporal_id为1的更高时间子层的画面将属于temporal_id至少为2的再上层时间子层的画面作为参考画面来参考，则时间子层向上切换无法被执行。

因此，应将这样的画面用作时间层访问画面：该画面参考属于更高时间子层的画面之中的至少在时间子层向上切换期间可用的画面。

为了提高在时间层访问画面之后被编码(或解码)的画面的预测效率，在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面可参考在时间层访问画面之前被编码的画面。这里，如果可用作参考画面的候选的数量增加，则由于与将被编码的画面相似的参考画面更可能被使用，因此可通过增加参考可能性来提高图像的预测效率。允许这种参考的时间层访问画面被定义为第一时间层访问画面。换句话说，第一时间层访问画面是这样的时间层访问画面：该时间层访问画面允许在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面来参考在该时间层访问画面之前被编码的画面。另一方面，限制这种参考的时间层访问画面被定义为第二时间层访问画面。换句话说，第二时间层访问画面是这样的时间层访问画面：该时间层访问画面不允许在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比该时间层访问画面更高的时间子层的画面来参考在时间层访问画面之前被编码的画面。

图17是用于描述根据本发明的实施例的领导画面和第一时间层访问的示图。如上所述，I、B和P分别表示I画面、B画面和P画面，在I、B和P 之后的编号表示显示顺序的编号。此外，箭头的方向表示参考方向。

预定画面的领导画面表示在所述预定画面之后被解码但在所述预定画面之前被显示的画面。参照图17，B3画面1720是在B4画面1710之前被显示但在B4画面1710之后被解码的领导画面。这里，假设B3画面1720是通过参考B2画面以及B4画面1710被双向预测的。由于属于相同时间子层或更高时间子层的并根据解码顺序在B4画面1710之后被解码的B3画面1720参考在B4画面1710之前被解码的B2画面，因此B4画面1710可被分类为第一时间层访问画面。

如上所述，可增加可用作参考画面的画面的数量，以增加图像的预测效率，但是在第一时间层访问画面的情况下，可根据在时间层向上切换期间画面之间的参考关系对在解码处理期间不再需要的画面进行解码。

参照图18，假设在从最低时间子层到紧接着的更高时间子层执行时间层向上切换的情况下，B4画面1810是时间层访问画面。此外，假设B4画面 1810是第一时间层访问画面，其中，在B4画面1810之后被解码的并属于与 B4画面1810相同的时间子层或属于比B4画面1810更高的时间子层的画面能够参考在B4画面1810之前被解码的画面。如果时间层向上切换被执行，则作为B4画面1810的领导画面的B3画面1820由于不存在参考画面而无法被解码。因此，在第一时间层访问画面的情况下，由于在随后被解码的画面未被约束为参考在第一时间层访问画面之前被解码的画面，因此可存在随后无法根据在画面之间的参考关系被解码的领导画面。

根据实施例的视频编码设备1400的复用器1420可单独地将在与第一时间层访问画面有关的时间层向上切换期间无法被解码的画面分类为可丢弃的画面，并可将预定语法“nal_unit_type”设置到NAL单元的头来指示可丢弃的画面。例如，图18的B3画面1820可被分类为在时间层向上切换期间的可丢弃的画面。

无法在时间层向上切换期间被解码的画面被分类为可丢弃的画面，使得在解码设备接收到包括可丢弃的画面的NAL单元的情况下可通过跳过单独的解码处理来节省硬件资源。

复用器1420将指示包括了第一时间层访问画面的第一类型语法信息 (nal_unit_type)添加到包括第一时间层访问画面的NAL单元的头，并将指示包括了第二时间层访问画面的第二类型语法信息(nal_unit_type)添加到包括第二时间层访问画面的传输单元数据的头。

图19是根据本发明的实施例的NAL单元的示图。

参照图19，NAL单元1900包括NAL头1910和原始字节序列载荷(RBSP) 1920。RBSP拖尾比特1930是被添加在RBSP 1920后面的长度调整比特，以便以8比特的倍数来表示RBSP1920的长度。RBSP拖尾比特1930可从“1”开始，然后可包括基于RBSP 1920的长度被确定的连续“0”，以便具有诸如“100…”的形式，并且，通过搜索作为初始比特值的“1”，可确定RBSP1920 的紧接在所述“1”之前的最后一个比特的位置。

用于标识第一时间层访问图像、第二时间层访问图像和可丢弃的图像是否包括在NAL单元1900中的语法“nal_unit_type”1912以及值为0的语法“forbidden_zero_bit”1911可被设置到NAL头1910。换句话说，可使用用于发送第一时间层访问图像、第二时间层访问图像和可丢弃的图像的具有固有语法“nal_unit_type”的NAL单元。

下面的表2示出了根据语法“nal_unit_type”的值的NAL单元1900的示例。

[表2]

参照表2，当根据本发明的实施例的时间层访问画面是断链时间层访问 (brokenlink temporal layer access(BLT))画面时，第一时间层访问画面和第二时间层访问画面中的每一个可被插入到语法“nal_unit_type”的值为6和7 的NAL单元中，并用所述NAL单元进行发送。

此外，当可丢弃的画面是标为丢弃的(tagged for discard(TFD))画面时，可丢弃的画面可被插入到语法“nal_unit_type”的值为2的NAL单元中，并用所述NAL单元进行发送。

参照图20，在操作2010，视频编码器1410对包括在画面序列中的画面进行编码，将编码的画面划分为时间子层，并输出编码的画面。

在操作2020，复用器1420基于在时间层访问画面之后被编码的并属于与时间层访问画面相同的时间子层或属于比时间层访问画面更高的时间子层的画面是否能够参考在时间层访问画面之前被编码的画面，将时间层访问画面分类为第一时间层访问画面或第二时间层访问画面。如上所述，第一时间层访问画面表示这样的时间层访问画面：该时间层访问画面允许在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比该时间层访问画面更高的时间子层的画面来参考在该时间层访问画面之前被编码的画面。第二时间层访问画面表示这样的时间层访问画面：该时间层访问画面不允许在该时间层访问画面之后被编码的并属于与该时间层访问画面相同的时间子层或属于比该时间层访问画面更高的时间子层的画面来参考在该时间层访问画面之前被编码的画面。

在操作2030，复用器1420将用于标识第一时间层访问画面和第二时间层访问画面的类型语法信息添加到包括时间层访问画面的传输单元数据。如上所述，复用器1420可使用具有固有语法“nal_unit_type”的NAL单元，来发送第一时间层访问画面、第二时间层访问画面和可丢弃的画面。

参照图21，根据实施例的视频解码设备2100包括视频解码器2130、反向复用器2120和接收器2110。

接收器2110从图14的视频编码设备1400接收传输单元数据(即，NAL 单元数据)。

反向复用器2120可通过使用包括在传输单元数据中的标识符来确定包括在传输单元数据中的画面的类型。如上所述，反向复用器2120可基于语法“nal_unit_type”来确定包括第一时间层访问画面、第二时间层访问画面和可丢弃的画面的NAL单元。

视频解码器2130与图2的视频解码设备200或图5的图像解码器500 相应，并通过获得针对用于产生图像数据和编码数据的编码单元的以下信息来对接收到的画面进行解码：划分信息、关于分区类型的信息、关于预测模式的信息、关于变换单元尺寸的信息和关于与编码处理有关的参数集的信息。

参照图22，在操作2210，接收器2110接收通过将包括在画面序列中的画面划分成时间子层并进行编码而获得的传输单元数据。

在操作2220，反向复用器2120通过使用包括在传输单元数据中的类型语法信息来识别这样的传输单元数据：该传输单元数据包括被访问以进行从更低时间子层到更高时间子层的时间层向上切换的时间层访问画面。

根据本发明的实施例可被编写为计算机程序，并可被实现在通过使用计算机可读记录介质执行所述程序的通用数字计算机中。计算机可读记录介质的示例包括磁存储介质(例如，只读存储器(ROM)、软盘和硬盘)、光记录介质(例如，致密盘只读存储器(CD-ROM)和数字多功能盘(DVD))和载波(诸如通过互联网的数据传输)。

虽然已经参照本发明的示例性实施例具体示出并描述了本发明，但是本领域的普通技术人员将理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可在示例性实施例中做出形式和细节上的各种改变。示例性实施例应仅被考虑为描述意义，且不用于限制的目的。因此，本发明的范围不由本发明的详细描述来限定，而由权利要求来限定，并且在该范围内的所有差异都将被认为包括在本发明中。

Claims

1.一种对具有时间可伸缩性的视频进行解码的视频解码方法，所述视频解码方法包括：

接收通过将包括在画面序列中的画面划分为时间子层并进行编码而获得的传输单元数据；

通过使用包括在传输单元数据中的类型语法信息，识别传输单元数据中包括的当前画面的类型，其中，该传输单元数据包括被访问以进行从更低时间子层到更高时间子层的时间层向上切换的时间层访问画面；

基于识别出的类型对当前画面进行解码，

其中，类型语法信息指示当前画面是第一时间层访问画面还是第二时间层访问画面，

其中，当类型语法信息指示当前画面的类型是第一时间层访问画面时，在第一时间层访问画面之后被解码并属于比第一时间层访问画面的时间子层更高的时间子层的第一画面能够参考在第一时间层访问画面之前被解码的第二画面，

当类型语法信息指示当前画面的类型是第二时间层访问画面时，在第二时间层访问画面之后被解码并属于比第二时间层访问画面的时间子层更高的时间子层的第三画面不能参考在第二时间层访问画面之前被解码的画面。

2.如权利要求1所述的视频解码方法，其中，传输单元数据是网络适应层单元中的数据。

3.如权利要求2所述的视频解码方法，其中，类型语法信息是指示网络适应层单元的类型的标识符。