CN107623856A

CN107623856A - 视频编码设备、视频解码设备和计算机可读存储介质

Info

Publication number: CN107623856A
Application number: CN201710910140.6A
Authority: CN
Inventors: 朴永五; 崔光杓; 金赞烈; 杨喜喆
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-07-02
Filing date: 2012-07-02
Publication date: 2018-01-23
Also published as: SI3267681T1; US20150382002A1; PT2728861T; HRP20181956T1; CN107454417A; CN107483980A; AU2012278485B2; ZA201400764B; PH12017501053A1; MX337078B; CY1119757T1; BR112013033902A2; KR101457895B1; KR20130004436A; KR101872978B1; RU2636131C1; KR20160121459A; HUE035904T2; PL3267681T3; EP2728861A2

Abstract

一种视频编码设备、视频解码设备和计算机可读存储介质。一种用于对视频数据进行复用和解复用的方法和设备。对视频数据进行复用的方法将语法包括在被用于对在随机访问中使用的纯净随机访问(CRA)画面进行复用的传输单元数据的头中，其中，预定语法指示CRA画面的再现状态，即，正常再现还是根据随机访问的再现。

Description

视频编码设备、视频解码设备和计算机可读存储介质

本申请是申请日为2012年7月2日、申请号为201280042854.5、题为“用于对视频数据进行复用和解复用以识别视频数据的再现状态的方法和设备”的专利申请的分案申请。

技术领域

本发明涉及一种对视频进行编码和解码的方法和设备，更具体地说，涉及一种用于对视频数据进行复用和解复用以识别在解码端再现的帧内画面的再现状态是随机访问再现状态还是正常再现状态的方法和设备。

背景技术

视频编解码器(包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262(ISO/IEC MPEG-2 Visual)、ITU-T H.264、ISO/IEC MPEG-4 Visual和ITU-T H.264(ISO/IECMPEG-4 AVC))经由帧间预测或帧内预测对宏块执行预测编码，根据由每个视频编解码器定义的预定格式产生包含编码的图像数据的比特流，并输出比特流。

发明内容

技术问题

本发明定义一种新类型的用于随机访问再现的帧内画面，并提供一种用于通过与解码设备有关的硬件或软件识别正常再现状态和随机访问再现状态的方法和设备。

技术方案

根据本发明的实施例，可经由预定的传输数据中包括的语法识别帧内画面的再现状态。

有益效果

根据本发明的实施例，可通过与解码设备有关的硬件或软件识别正常再现状态和随机访问再现状态，使得可节省用于对无需被解码的画面进行解码的系统资源。

附图说明

图1是根据本发明的实施例的用于对视频进行编码的设备的框图。

图2是根据本发明的实施例的用于对视频进行解码的设备的框图。

图3是用于描述根据本发明的实施例的编码单元的概念的示图。

图4是根据本发明的实施例的基于编码单元的图像编码器的框图。

图5是根据本发明的实施例的基于编码单元的图像解码器的框图。

图6是示出根据本发明的实施例的根据深度的较深层编码单元以及分区的示图。

图7是用于描述根据本发明的实施例的编码单元和变换单元之间的关系的示图。

图8是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。

图9是根据本发明的实施例的根据深度的较深层编码单元的示图。

图10至图12是用于描述根据本发明的实施例的编码单元、预测单元和变换单元之间的关系的示图。

图13是用于描述根据表1的编码模式信息的编码单元、预测单元或分区以及变换单元之间的关系的示图。

图14a和图14b示出根据本发明的实施例的正常再现和随机访问中的纯净随机访问(CRA)画面的解码处理。

图15示出根据本发明的实施例的视频数据复用设备的结构。

图16示出根据本发明的实施例的网络抽象层(NAL)单元的结构。

图17a和图17b示出根据本发明的另一实施例的正常再现和随机访问中的CRA画面的解码处理。

图18是根据本发明的实施例的对视频数据进行复用的方法的流程图。

图19示出根据本发明的实施例的视频数据反向复用设备1900的结构。

图20是根据本发明的实施例的对视频数据进行反向复用的方法的流程图。

最佳实施方式

根据本发明的一方面，提供一种对视频数据进行复用以识别视频数据的再现状态的方法，所述方法包括以下操作：基于具有分层结构的数据单元对形成视频数据的画面进行编码；响应于来自解码设备的对编码数据的发送请求，确定发送请求根据正常再现还是针对随机访问；根据确定的结果，将预定语法添加到用于对在随机访问中使用并具有前导画面的帧内画面进行复用的传输单元数据，所述前导画面在显示顺序中在帧内画面之前但在编码顺序中在帧内画面之后被编码，其中，所述预定语法指示经由正常再现的请求和经由随机访问的请求之中的哪个请求与帧内画面有关。

根据本发明的另一方面，提供一种用于对视频数据进行复用以识别视频数据的再现状态的设备，所述设备包括：视频编码器，用于基于具有分层结构的数据单元对形成视频数据的画面进行编码；再现状态识别器，用于响应于来自解码设备的对编码数据的发送请求，确定发送请求根据正常再现还是针对随机访问；复用器，根据确定的结果，将预定语法添加到用于对在随机访问中使用并具有前导画面的帧内画面进行复用的传输单元数据，所述前导画面在显示顺序中在帧内画面之前但在编码顺序中在帧内画面之后被编码，其中，所述预定语法指示经由正常再现的请求和经由随机访问的请求之中的哪个请求与帧内画面有关。

根据本发明的另一方面，提供一种对视频数据进行解复用以识别视频数据的再现状态的方法，所述方法包括以下操作：接收用于对比特流进行复用的传输单元数据，所述比特流通过基于分层结构数据单元对形成视频数据的画面进行编码而产生；从用于对在随机访问中使用并具有前导画面的帧内画面进行复用的传输单元数据获得预定语法，所述前导画面在显示顺序中在帧内画面之前但在解码顺序中在帧内画面之后被解码，其中，所述预定语法指示帧内画面根据正常再现状态还是根据随机访问状态被解码；基于获得的预定语法，识别帧内画面根据正常再现还是根据随机访问被再现。

根据本发明的另一方面，提供一种用于对视频数据进行解复用以识别视频数据的再现状态的设备，所述设备包括：反向复用器，用于接收用于对比特流进行复用的传输单元数据，所述比特流通过基于分层结构数据单元对形成视频数据的画面进行编码而产生，从用于对在随机访问中使用并具有前导画面的帧内画面进行复用的传输单元数据获得预定语法，所述前导画面在显示顺序中在帧内画面之前但在解码顺序中在帧内画面之后被解码，其中，所述预定语法指示帧内画面根据正常再现状态还是根据随机访问状态被解码；再现状态识别器，用于基于获得的预定语法，识别帧内画面根据正常再现还是根据随机访问被再现。

具体实施方式

以下，将通过参照附图解释本发明的示例性实施例来详细描述本发明。在整个说明书中，图像可包括静止图像和运动图像，可被称为视频。此外，在整个说明书中，图像帧可被称为画面。

图1是根据本发明的实施例的视频编码设备100的框图。

视频编码设备100包括最大编码单元划分器110、编码单元确定器120和输出单元130。

最大编码单元划分器110可基于图像的当前画面的最大编码单元对当前画面进行划分。如果当前画面大于最大编码单元，则当前画面的图像数据可被划分为至少一个最大编码单元。根据本发明的实施例的最大编码单元可以是尺寸为32×32、64×64、128×128、256×256等的数据单元，其中，数据单元的形状是宽度和高度均为2的若干次方并大于8的正方形。图像数据可根据至少一个最大编码单元被输出到编码单元确定器120。

根据本发明的实施例的编码单元可由最大尺寸以及深度来表征。深度表示编码单元从最大编码单元被空间划分的次数，并且随着深度加深，根据深度的较深层编码单元可从最大编码单元被划分为最小编码单元。最大编码单元的深度是最上层深度，最小编码单元的深度是最下层深度。由于与每个深度相应的编码单元的尺寸随着最大编码单元的深度加深而减小，因此，与上层深度相应的编码单元可包括多个与下层深度相应的编码单元。

如上所述，当前画面的图像数据根据编码单元的最大尺寸而被划分为最大编码单元，所述最大编码单元中的每一个可包括根据深度被划分的较深层编码单元。由于根据本发明的实施例的最大编码单元根据深度被划分，因此包括在最大编码单元中的空间域的图像数据可根据深度被分层分类。

可预先确定编码单元的最大深度和最大尺寸，所述最大深度和最大尺寸限定最大编码单元的高度和宽度被分层划分的总次数。

编码单元确定器120对通过根据深度划分最大编码单元的区域而获得的至少一个划分的区域进行编码，并根据所述至少一个划分的区域确定用于输出最终编码的图像数据的深度。换句话说，编码单元确定器120通过根据当前画面的最大编码单元按照根据深度的较深层编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定编码深度。因此，与确定的编码深度相应的编码单元的编码图像数据被最终输出。此外，与编码深度相应的编码单元可被视为被编码的编码单元。

确定的编码深度和根据确定的编码深度的编码图像数据被输出到输出单元130。

基于与等于或低于最大深度的至少一个深度相应的较深层编码单元对最大编码单元中的图像数据进行编码，并基于较深层编码单元中的每一个来比较对图像数据进行编码的结果。在比较较深层编码单元的编码误差之后，可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个编码深度。

随着编码单元根据深度而被分层划分，并且随着编码单元的数量增加，最大编码单元的尺寸被划分。此外，即使在一个最大编码单元中编码单元相应于相同深度，也通过分别测量每个编码单元的图像数据的编码误差来确定是否将与相同深度相应的编码单元中的每一个划分到下层深度。因此，即使当图像数据被包括在一个最大编码单元中时，在所述一个最大编码单元中，图像数据根据深度被划分为区域，编码误差也可根据区域而不同，因此，编码深度可根据图像数据中的区域而不同。因此，在一个最大编码单元中可确定一个或多个编码深度，并可根据至少一个编码深度的编码单元来划分最大编码单元的图像数据。

因此，编码单元确定器120可确定包括在最大编码单元中的具有树结构的编码单元。根据本发明的实施例的“具有树结构的编码单元”包括在最大编码单元中包括的所有较深层编码单元中的与被确定为编码深度的深度相应的编码单元。在最大编码单元的相同区域中，编码深度的编码单元可根据深度被分层确定，在不同的区域中，编码深度的编码单元可被独立地确定。类似地，当前区域中的编码深度可独立于另一区域中的编码深度被确定。

根据本发明的实施例的最大深度是关于从最大编码单元到最小编码单元的划分次数的索引。根据本发明的实施例的第一最大深度可表示从最大编码单元到最小编码单元的总划分次数。根据本发明的实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度级的总数。例如，当最大编码单元的深度为0时，最大编码单元被划分一次的编码单元的深度可被设置为1，最大编码单元被划分两次的编码单元的深度可被设置为2。这里，如果最小编码单元是最大编码单元被划分四次的编码单元，则存在深度0、1、2、3和4这5个深度级，因此，第一最大深度可被设置为4，第二最大深度可被设置为5。

可根据最大编码单元执行预测编码和变换。还可根据最大编码单元，基于根据等于最大深度的深度或小于最大深度的深度的较深层编码单元来执行预测编码和变换。可根据正交变换或整数变换的方法来执行变换。

由于每当最大编码单元根据深度被划分时较深层编码单元的数量增加，因此可针对随着深度加深而产生的所有较深层编码单元执行包括预测编码和变换的编码。为了便于描述，现在将基于最大编码单元中的当前深度的编码单元来描述预测编码和变换。

视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。

例如，视频编码设备100不仅可选择用于对图像数据进行编码的编码单元，还可选择与编码单元不同的数据单元，以便对编码单元中的图像数据执行预测编码。

为了在最大编码单元中执行预测编码，可基于与编码深度相应的编码单元(即，基于不再被划分为与下层深度相应的编码单元的编码单元)执行预测编码。以下，现将不再被划分并且变成用于预测编码的基本单元的编码单元称为“预测单元”。通过对预测单元进行划分所获得的分区(partition)可包括预测单元或通过对预测单元的高度和宽度中的至少一个进行划分所获得的数据单元。

例如，当2N×2N(其中，N是正整数)的编码单元不再被划分，并且变成2N×2N的预测单元时，分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。分区类型的示例包括通过对预测单元的高度或宽度进行对称划分所获得的对称分区、通过对预测单元的高度或宽度进行不对称划分(诸如1:n或n:1)所获得的分区、通过对预测单元进行几何划分所获得的分区以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可针对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。此外，可仅针对2N×2N的分区执行跳过模式。针对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。

视频编码设备100还可不仅基于用于对图像数据进行编码的编码单元，还基于不同于编码单元的数据单元，对编码单元中的图像数据执行变换。

为了在编码单元中执行变换，可基于具有小于或等于编码单元的尺寸的数据单元来执行变换。例如，用于变换的数据单元可包括用于帧内模式的数据单元和用于帧间模式的数据单元。

现将用作变换的基础的数据单元称为“变换单元”。还可在变换单元中设置变换深度，所述变换深度指示通过对编码单元的高度和宽度进行划分来实现变换单元的划分次数。例如，在2N×2N的当前编码单元中，当变换单元的尺寸也为2N×2N时，变换深度可以是0，当当前编码单元的高度和宽度均被划分为二等份，总共被划分为4^1变换单元，并因此变换单元的尺寸是N×N时，变换深度可以是1，当当前编码单元的高度和宽度均被划分为四等份，总共被划分为4^2变换单元，并因此变换单元的尺寸是N/2×N/2时，变换深度可以是2。例如，可根据分层树结构设置变换单元，其中，根据变换深度的分层特性，上层变换深度的变换单元被划分为下层变换深度的四个变换单元。

与编码单元相似，编码单元中的变换单元可被递归的划分为更小尺寸的区域，从而可以以区域为单位独立地确定变换单元。因此，可根据基于变换深度的具有树结构的变换来划分编码单元中的残差数据。

根据与编码深度相应的编码单元的编码信息不仅需要关于编码深度的信息，还需要关于与预测编码和变换有关的信息的信息。因此，编码单元确定器120不仅确定具有最小编码误差的编码深度，还确定预测单元中的分区类型、根据预测单元的预测模式和用于变换的变换单元的尺寸。

稍后将参照图3至图12详细描述根据本发明的实施例的最大编码单元中的根据树结构的编码单元以及确定分区的方法。

编码单元确定器120可通过使用基于拉格朗日乘子的率失真优化来测量根据深度的较深层编码单元的编码误差。

输出单元130在比特流中输出最大编码单元的图像数据以及关于根据编码深度的编码模式的信息，其中，所述图像数据基于由编码单元确定器120确定的至少一个编码深度被编码。

可通过对图像的残差数据进行编码来获得编码图像数据。

关于根据编码深度的编码模式的信息可包括关于编码深度的信息、关于预测单元中的分区类型的信息、预测模式以及变换单元的尺寸。

可通过使用根据深度的划分信息来定义关于编码深度的信息，所述划分信息指示是否针对下层深度而不是当前深度的编码单元来执行编码。如果当前编码单元的当前深度是编码深度，则当前编码单元中的图像数据被编码并被输出，因此划分信息可被定义为不将当前编码单元划分到下层深度。可选地，如果当前编码单元的当前深度不是编码深度，则针对下层深度的编码单元来执行编码，因此，划分信息可被定义为划分当前编码单元以获得下层深度的编码单元。

如果当前深度不是编码深度，则针对被划分为下层深度的编码单元的编码单元来执行编码。由于在当前深度的一个编码单元中存在下层深度的至少一个编码单元，因此针对下层深度的每个编码单元重复执行编码，因此，可针对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树结构的编码单元，并且针对编码深度的编码单元确定关于至少一个编码模式的信息，因此，可针对一个最大编码单元确定关于至少一个编码模式的信息。此外，由于图像数据根据深度被分层划分，因此，最大编码单元的图像数据的编码深度可根据位置而不同，因此，可针对图像数据设置关于编码深度和编码模式的信息。

因此，输出单元130可将关于相应的编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。

根据本发明的实施例的最小单元可以是通过将构成最低深度的最小编码单元划分为4份而获得的矩形数据单元，并且最小单元可以是最大矩形数据单元，所述最大矩形数据单元可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中。

例如，通过输出单元130输出的编码信息可被分为根据编码单元的编码信息和根据预测单元的编码信息。根据编码单元的编码信息可包括关于预测模式的信息和关于分区尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息和关于帧内模式的插值方法的信息。此外，关于根据画面、条带或GOP定义的编码单元的最大尺寸的信息以及关于最大深度的信息可被插入比特流的头中。

最大编码单元划分器110和编码单元确定器120与视频编码层相应，其中，视频编码层通过根据编码单元对图像序列的每个图像帧执行运动估计和运动补偿来确定形成图像序列的每个图像帧的参考帧，并通过使用确定的参考帧对每个图像帧进行编码。

此外，如稍后将描述的，输出单元130可以以网络抽象层(NAL)为单位对语法(max_dec_frame buffering)、语法(num_reorder_frames)和语法(max_latency_increase)进行映射，并因此产生比特流，其中语法(max_dec_frame buffering)指示解码器对图像帧进行解码所需要的缓冲器的最大大小，语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，语法(max_latency_increase)指示形成图像序列的图像帧中的具有编码顺序和显示顺序之间的最大差异的图像帧的延迟信息。

在视频编码设备100中，较深层编码单元可以是通过将作为上一层的上层深度的编码单元的高度或宽度划分两次所获得的编码单元。换句话说，当当前深度的编码单元的尺寸为2N×2N时，下层深度的编码单元的尺寸是N×N。此外，尺寸为2N×2N的当前深度的编码单元可最多包括下层深度的4个编码单元。

因此，视频编码设备100可通过基于考虑当前画面的特性所确定的最大编码单元的尺寸和最大深度，针对每个最大编码单元确定具有最佳形状和最佳尺寸的编码单元，来形成具有树结构的编码单元。此外，由于可通过使用各种预测模式和变换中的任何一个来针对每个最大编码单元执行编码，因此可考虑各种图像尺寸的编码单元的特性来确定最佳编码模式。

因此，如果以传统的宏块对具有高分辨率或大数据量的图像进行编码，则每个画面的宏块数量过度增加。因此，针对每个宏块产生的压缩信息的条数增加，因此难以发送压缩信息，并且数据压缩效率降低。然而，通过使用视频编码设备100，由于在考虑图像尺寸的同时增加编码单元的最大尺寸，同时在考虑图像特性的同时调整编码单元，因此可提高图像压缩效率。

图2是根据本发明的实施例的视频解码设备200的框图。

视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。用于视频解码设备200的各种操作的各种术语(诸如编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与参照图1和视频编码设备100描述的那些术语相同。

接收器210接收并解析编码视频的比特流。图像数据和编码信息提取器220从解析的比特流提取每个编码单元的编码图像数据，并将提取的图像数据输出到图像数据解码器230，其中，编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头或SPS提取关于当前画面的编码单元的最大尺寸的信息。

此外，图像数据和编码信息提取器220从解析的比特流提取关于编码单元的编码深度和编码模式的信息，其中，编码单元具有根据每个最大编码单元的树结构。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。换句话说，比特流中的图像数据被划分为最大编码单元，从而图像数据解码器230对每个最大编码单元的图像数据进行解码。

可针对关于与编码深度相应的至少一个编码单元的信息，来设置关于根据最大编码单元的编码深度和编码模式的信息，并且关于编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和变换单元的尺寸。此外，根据深度的划分信息可被提取作为关于编码深度的信息。

由图像数据和编码信息提取器220提取的关于根据每个最大编码单元的编码深度和编码模式的信息是关于如下编码深度和编码模式的信息，其中，所述编码深度和编码模式被确定为用于当编码器(诸如视频编码设备100)根据每个最大编码单元对每个根据深度的较深层编码单元重复执行编码时产生最小编码误差。因此，视频解码设备200可通过根据产生最小编码误差的编码深度和编码模式对图像数据进行解码来恢复图像。

由于关于编码深度和编码模式的编码信息可被分配给相应编码单元、预测单元和最小单元中的预定数据单元，因此图像数据和编码信息提取器220可根据预定数据单元提取关于编码深度和编码模式的信息。被分配关于编码深度和编码模式的相同信息的预定数据单元可被推断为包括在相同最大编码单元中的数据单元。

图像数据解码器230通过基于关于根据最大编码单元的编码深度和编码模式的信息对每个最大编码单元中的图像数据进行解码，来恢复当前画面。换句话说，图像数据解码器230可基于提取的关于包括在每个最大编码单元中的具有树结构的编码单元中的每个编码单元的分区类型、预测模式和变换单元的信息，来对编码图像数据进行解码。解码处理可包括预测(包括帧内预测和运动补偿)和反变换。可根据反正交变换或反整数变换的方法来执行反变换。

图像数据解码器230可基于关于根据编码深度的编码单元的预测单元的分区类型和预测模式的信息，根据每个编码单元的分区和预测模式执行帧内预测或运动补偿。

此外，图像数据解码器230可基于关于根据编码深度的编码单元的变换单元的尺寸的信息，根据编码单元中的每个变换单元执行反变换，从而根据最大编码单元执行反变换。

图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的至少一个编码深度。如果划分信息指示图像数据在当前深度下不再被划分，则当前深度是编码深度。因此，图像数据解码器230可通过使用与编码深度相应的每个编码单元的关于预测单元的分区类型、预测模式和变换单元尺寸的信息，对当前最大编码单元中与每个编码深度相应的至少一个编码单元的编码数据进行解码，并输出当前最大编码单元的图像数据。

换句话说，可通过观察为编码单元、预测单元和最小单元中的预定数据单元分配的编码信息集来收集包括编码信息(编码信息包括相同划分信息)的数据单元，收集的数据单元可被视为将由图像数据解码器230以相同的编码模式进行解码的一个数据单元。

此外，接收器210以及图像数据和编码信息提取器220执行NAL解码处理，其中，语法(max_dec_frame buffering)、语法(num_reorder_frames)、语法(max_latency_increase)从比特流获得并被输出到图像数据解码器230，其中，语法(max_dec_framebuffering)指示解码器对图像帧进行解码所需要的缓冲器的最大大小，语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，语法(max_latency_increase)指示形成图像序列的图像帧中的具有编码顺序和显示顺序之间的最大差异的图像帧的延迟信息。

视频解码设备200可获得关于当针对每个最大编码单元递归执行编码时产生最小编码误差的至少一个编码单元的信息，并可使用所述信息来对当前画面进行解码。换句话说，可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元进行解码。此外，考虑分辨率和图像数据量来确定编码单元的最大尺寸。

因此，即使图像数据具有高分辨率和大数据量，也可通过使用编码单元的尺寸和编码模式来有效地对图像数据进行解码和恢复，其中，通过使用从编码器接收的关于最佳编码模式的信息，根据图像数据的特性来自适应地确定所述编码单元的尺寸和所述编码模式。

现在将参照图3至图13描述根据本发明的实施例的确定具有树结构的编码单元、预测单元和变换单元的方法。

编码单元的尺寸可被表示为宽度×高度，可以是64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区，32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区，16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区，8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据310中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为2。在视频数据320中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为3。在视频数据330中，分辨率为352×288，编码单元的最大尺寸为16，最大深度为1。图3中示出的最大深度指示从最大编码单元到最小解码单元的总划分次数。

如果分辨率高或数据量大，则编码单元的最大尺寸可较大，从而不仅提高了编码效率还精确地反映出图像的特性。因此，分辨率高于视频数据330的视频数据310和视频数据320的编码单元的最大尺寸可以是64。

由于视频数据310的最大深度是2，因此，由于通过将最大编码单元划分两次，深度被加深两层，因此视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元以及长轴尺寸为32和16的编码单元。同时，由于视频数据330的最大深度是1，因此，由于通过将最大编码单元划分一次，深度被加深一层，因此视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元以及长轴尺寸为8的编码单元。

由于视频数据320的最大深度为3，因此，由于通过将最大编码单元划分三次，深度被加深3层，因此视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元以及长轴尺寸为32、16和8的编码单元。随着深度加深，可精确地表达详细信息。

图4是根据本发明的实施例的基于编码单元的图像编码器400的框图。

图像编码器400执行视频编码设备100的编码单元确定器120的操作以对图像数据进行编码。换句话说，帧内预测器410对当前帧405中的帧内模式下的编码单元执行帧内预测，运动估计器420和运动补偿器425通过使用当前帧405和参考帧495，对当前帧405中的帧间模式下的编码单元执行帧间估计和运动补偿。

从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过变换器430和量化器440被输出作为量化的变换系数。量化的变换系数通过反量化器460和反变换器470被恢复为空间域中的数据，恢复的空间域中的数据在通过去块单元480和环路滤波单元490进行后处理之后被输出为参考帧495。量化的变换系数可通过熵编码器450被输出为比特流455。具体的说，熵编码器450可以以NAL为单位对最大解码帧缓冲语法(max_dec_framebuffering)、重新排序帧数量语法(num_reorder_frames)以及最大延迟帧语法(MaxLatencyFrame)或最大延迟增加语法(max_latency_increase)进行映射，并可因此产生比特流，其中，最大解码帧缓冲语法(max_dec_frame buffering)指示解码器对图像帧进行解码所需要的缓冲器的最大尺寸，重新排序帧数量语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，最大延迟帧语法(MaxLatencyFrame)指示形成图像序列的图像帧的编码顺序和显示顺序之间的差值的最大值，最大延迟增加语法(max_latency_increase)用于确定最大延迟帧语法(MaxLatencyFrame)。具体的说，根据本实施例的熵编码器450将最大解码帧缓冲语法(max_dec_frame buffering)、重新排序帧数量语法(num_reorder_frames)、最大延迟增加语法(max_latency_increase)作为基本元素包括在序列参数集(SPS)中，其中SPS是包括与整个图像序列的编码有关的信息的头信息，其中，最大解码帧缓冲语法(max_dec_frame buffering)指示解码器对图像帧进行解码所需要的缓冲器的最大大小，重新排序帧数量语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，最大延迟增加语法(max_latency_increase)用于确定最大延迟帧语法(MaxLatencyFrame)。

为了将图像编码器400应用在视频编码设备100中，图像编码器400的所有元件(即，帧内预测器410、运动估计器420、运动补偿器425、变换器430、量化器440、熵编码器450、反量化器460、反变换器470、去块单元480和环路滤波单元490)在考虑每个最大编码单元的最大深度的同时，基于具有树结构的编码单元中的每个编码单元来执行操作。

具体地，帧内预测器410、运动估计器420和运动补偿器425在考虑当前最大编码单元的最大尺寸和最大深度的同时确定具有树结构的编码单元中的每个编码单元的分区和预测模式，变换器430确定具有树结构的编码单元中的每个编码单元中的变换单元的尺寸。

图5是根据本发明的实施例的基于编码单元的图像解码器500的框图。

解析器510从比特流505解析将被解码的编码图像数据以及解码所需的关于编码的信息。具体地说，解析器510从比特流获得作为基本元素包括在SPS中的最大解码帧缓冲语法(max_dec_frame buffering)、重新排序帧数量语法(num_reorder_frames)和最大延迟增加语法(max_latency_increase)，并将其输出到熵解码器520，其中，最大解码帧缓冲语法(max_dec_frame buffering)指示对图像帧进行解码所需要的缓冲器的最大大小，重新排序帧数量语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，最大延迟增加语法(max_latency_increase)用于确定最大延迟帧语法(MaxLatencyFrame)。在图5中，解析器510和熵解码器520是单独的元件。然而，由解析器510执行的图像数据的获取以及与编码图像数据有关的语法信息的每一项的获取可被实现为由熵解码器520执行。

编码图像数据通过熵解码器520和反量化器530被输出为反量化的数据，反量化的数据通过反变换器540被恢复为空间域中的图像数据。

帧内预测器550针对空间域中的图像数据，对帧内模式下的编码单元执行帧内预测，运动补偿器560通过使用参考帧585对帧间模式下的编码单元执行运动补偿。

在通过帧内预测器550和运动补偿器560的同时被恢复的图像帧可通过去块单元570被后处理，并可被输出到解码画面缓冲器(DPB)580。DPB 580存储参考帧，改变图像帧的显示顺序，并存储恢复的图像帧以输出图像帧。DPB 580存储恢复的图像帧，并通过使用从解析器510或熵解码器520输出的最大解码帧缓冲语法(max_dec_frame buffering)来设置对图像序列进行正常解码所需要的缓冲器的最大尺寸，其中，最大解码帧缓冲语法(max_dec_frame buffering)指示对图像帧进行解码所需要的缓冲器的最大尺寸。

此外，DPB 580可通过使用重新排序帧数量语法(num_reorder_frames)和最大延迟增加语法(max_latency_increase)来确定是否输出先前被解码和存储的参考图像帧，其中，重新排序帧数量语法(num_reorder_frames)指示需要被重新排序的图像帧的数量，最大延迟增加语法(max_latency_increase)用于确定最大延迟帧语法(MaxLatencyFrame)。稍后将详细描述输出存储在DPB 580中的参考图像帧的处理。

为了在视频解码设备200的图像数据解码器230中对图像数据进行解码，图像解码器500可执行在解析器510之后执行的操作。

为了将图像解码器500应用在视频解码设备200中，图像解码器500的所有元件(即，解析器510、熵解码器520、反量化器530、反变换器540、帧内预测器550、运动补偿器560、去块单元570和环路滤波单元580)可针对每个最大编码单元基于具有树结构的编码单元执行解码操作。具体地，帧内预测器550和运动补偿器560可针对具有树结构的每个编码单元确定分区和预测模式，反变换器540可针对每个编码单元确定变换单元的尺寸。

视频编码设备100和视频解码设备200使用分层编码单元以考虑图像的特性。可根据图像的特性适应地确定编码单元的最大高度、最大宽度和最大深度，或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据编码单元的预定最大尺寸来确定根据深度的较深层编码单元的尺寸。

在根据本发明的实施例的编码单元的分层结构600中，编码单元的最大高度和最大宽度均为64，最大深度为4。由于深度沿分层结构600的纵轴加深，因此较深层编码单元的高度和宽度均被划分。此外，沿分层结构600的横轴示出作为用于每个较深层编码单元的预测编码的基础的预测单元和分区。

换句话说，编码单元610是分层结构600中的最大编码单元，其中，深度为0，尺寸(即，高度乘宽度)为64×64。深度沿纵轴加深，存在尺寸为32×32且深度为1的编码单元620、尺寸为16×16且深度为2的编码单元630、尺寸为8×8且深度为3的编码单元640以及尺寸为4×4且深度为4的编码单元650。尺寸为4×4且深度为4的编码单元650是最小编码单元。

编码单元的预测单元和分区根据每个深度沿横轴排列。换句话说，如果尺寸为64×64且深度为0的编码单元610是预测单元，则预测单元可被划分为包括在编码单元610中的分区，即，尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614或尺寸为32×32的分区616。

类似地，尺寸为32×32且深度为1的编码单元620的预测单元可被划分为包括在编码单元620中的分区，即，尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626。

类似地，尺寸为16×16且深度为2的编码单元630的预测单元可被划分为包括在编码单元630中的分区，即，包括在编码单元630中的尺寸为16×16的分区630、尺寸为16×8的分区632、尺寸为8×16的分区634和尺寸为8×8的分区636。

类似地，尺寸为8×8且深度为3的编码单元640的预测单元可被划分为包括在编码单元640中的分区，即，包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644和尺寸为4×4的分区646。

尺寸为4×4且深度为4的编码单元650是最小编码单元和最下层深度的编码单元。编码单元650的预测单元仅被分配给尺寸为4×4的分区。

为了确定组成最大编码单元610的编码单元的至少一个编码深度，视频编码设备100的编码单元确定器120针对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。

随着深度加深，以相同范围和相同尺寸包括数据的根据深度的较深层编码单元的数量增加。例如，需要四个与深度2相应的编码单元，以覆盖包括在一个与深度1相应的编码单元中的数据。因此，为了比较相同数据根据深度的编码结果，与深度1相应的编码单元和四个与深度2相应的编码单元各自被编码。

为了针对深度中的当前深度执行编码，可通过沿分层结构600的横轴，针对与当前深度相应的编码单元中的每个预测单元执行编码，来针对当前深度选择最小编码误差。可选地，可通过随着深度沿分层结构600的纵轴加深针对每个深度执行编码来比较根据深度的最小编码误差，从而搜索最小编码误差。在编码单元610中具有最小编码误差的深度和分区可被选为编码单元610的编码深度和分区类型。

图7是用于描述根据本发明的实施例的编码单元710和变换单元720之间的关系的示图。

视频编码设备100或200针对每个最大编码单元，根据具有小于或等于最大编码单元的尺寸的编码单元来对图像进行编码或解码。可基于不大于相应编码单元的数据单元来选择在编码期间用于变换的变换单元的尺寸。

例如，在视频编码设备100或200中，如果编码单元710的尺寸是64×64，则可通过使用尺寸为32×32的变换单元720来执行变换。

此外，可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的变换单元中的每一个执行变换，来对尺寸为64×64的编码单元710的数据进行编码，随后可选择具有最小编码误差的变换单元。

视频编码设备100的输出单元130可对与编码深度相应的每个编码单元的关于分区类型的信息800、关于预测模式的信息810和关于变换单元的尺寸的信息820进行编码作为关于编码模式的信息并进行发送。

信息800指示关于通过对当前编码单元的预测单元进行划分而获得的分区的形状的信息，其中，所述分区是用于对当前编码单元进行预测编码的数据单元。例如，尺寸为2N×2N的当前编码单元CU_0可被划分为尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808中的任意一个。这里，关于分区类型的信息800被设置为指示尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的尺寸的分区808之一。

信息810指示每个分区的预测模式。例如，信息810可指示对由信息800指示的分区执行的预测编码的模式，即，帧内模式812、帧间模式814或跳过模式816。

信息820指示当对当前编码单元执行变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧内变换单元828。

视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元提取和使用用于解码的信息800、810和820。

划分信息可被用于指示深度的改变。划分信息指示当前深度的编码单元是否被划分为下层深度的编码单元。

用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括以下分区类型的分区：尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916、尺寸为N_0×N_0的分区类型918。图9仅示出通过对预测单元910进行对称划分而获得的分区类型912至918，但分区类型不限于此，预测单元910的分区可包括不对称分区、具有预定形状的分区和具有几何形状的分区。

根据每个分区类型，对一个尺寸为2N_0×2N_0的分区、两个尺寸为2N_0×N_0的分区、两个尺寸为N_0×2N_0的分区和四个尺寸为N_0×N_0的分区重复执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为2N_0×2N_0的分区执行跳过模式下的预测编码。

比较编码(包括分区类型912至918的预测编码)的误差，并在分区类型中确定最小编码误差。如果在分区类型912至916之一中编码误差最小，则预测单元910可不被划分到下层深度。

如果在分区类型918中编码误差最小，则深度从0改变到1以在操作920对分区类型918进行划分，并对深度为2且尺寸为N_0×N_0的编码单元930重复执行编码，以搜索最小编码误差。

用于对深度为1且尺寸为2N_1×2N_1(＝N_0×N_0)的编码单元930进行预测编码的预测单元940可包括以下分区类型的分区：尺寸为2N_1×2N_1的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946、尺寸为N_1×N_1的分区类型948。

如果在分区类型948中编码误差最小，则深度从1改变到2以在操作950对分区类型948进行划分，并对深度为2且尺寸为N_2×N_2的编码单元960重复执行编码，以搜索最小编码误差。

当最大深度为d时，可执行根据每个深度的划分操作，直到深度变为d-1，并且划分信息可被编码，直到深度为0到d-2中的一个。换句话说，当编码被执行直到在操作970与深度d-2相应的编码单元被划分之后深度为d-1时，用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括以下分区类型的分区：尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1)的分区类型996、尺寸为N_(d-1)×N_(d-1)的分区类型998。

可在分区类型992至998中对一个尺寸为2N_(d-1)×2N_(d-1)的分区、两个尺寸为2N_(d-1)×N_(d-1)的分区、两个尺寸为N_(d-1)×2N_(d-1)的分区、四个尺寸为N_(d-1)×N_(d-1)的分区重复执行预测编码，以搜索具有最小编码误差的分区类型。

即使当分区类型998具有最小编码误差时，由于最大深度为d，因此深度为d-1的编码单元CU_(d-1)也不再被划分到下层深度，用于组成当前最大编码单元900的编码单元的编码深度被确定为d-1，当前最大编码单元900的分区类型可被确定为N_(d-1)×N_(d-1)。此外，由于最大深度为d并且具有最下层深度d-1的最小编码单元980不再被划分到下层深度，因此不设置最小编码单元980的划分信息。

数据单元999可以为当前最大编码单元的“最小单元”。根据本发明的实施例的最小单元可以是通过将最小编码单元980划分4份而获得的矩形数据单元。通过重复执行编码，视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度以确定编码深度，并将相应的分区类型和预测模式设置为编码深度的编码模式。

这样，在1至d的所有深度中比较根据深度的最小编码误差，具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为关于编码模式的信息被编码和发送。此外，由于编码单元从深度0被划分到编码深度，因此仅编码深度的划分信息被设置为0，除了编码深度之外的深度的划分信息被设置为1。

视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度和预测单元的信息以对分区912进行解码。视频解码设备200可通过使用根据深度的划分信息将划分信息为0的深度确定为编码深度，并使用关于相应深度的编码模式的信息以进行解码。

图10至图12是用于描述根据本发明的实施例的编码单元1010、预测单元1060和变换单元1070之间的关系的示图。

编码单元1010是最大编码单元中与由视频编码设备100确定的编码深度相应的具有树结构的编码单元。预测单元1060是编码单元1010中的每一个的预测单元的分区，变换单元1070是编码单元1010中的每一个的变换单元。

当编码单元1010中的最大编码单元的深度是0时，编码单元1012和1054的深度是1，编码单元1014、1016、1018、1028、1050和1052的深度是2，编码单元1020、1022、1024、1026、1030、1032和1048的深度是3，编码单元1040、1042、1044和1046的深度是4。

在预测单元1060中，通过对编码单元1010中的编码单元进行划分来获得某些编码单元1014、1016、1022、1032、1048、1050、1052和1054。换句话说，编码单元1014、1022、1050和1054中的分区类型具有2N×N的尺寸，编码单元1016、1048和1052中的分区类型具有N×2N的尺寸，编码单元1032的分区类型具有N×N的尺寸。编码单元1010的预测单元和分区小于或等于每个编码单元。

对小于编码单元1052的数据单元中的变换单元1070中的编码单元1052的图像数据执行变换或反变换。此外，变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052在尺寸和形状方面与预测单元1060中的编码单元1014、1016、1022、1032、1048、1050和1052不同。换句话说，视频编码设备100和视频解码设备200可对相同编码单元中的数据单元分别执行帧内预测、运动估计、运动补偿、变换和反变换。

因此，对最大编码单元的每个区域中具有分层结构的编码单元中的每一个递归地执行编码，以确定最佳编码单元，从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表1示出可由视频编码设备100和视频解码设备200设置的编码信息。

表1

视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息，视频解码设备200的图像数据和编码信息提取器220可从接收的比特流提取关于具有树结构的编码单元的编码信息。

划分信息指示当前编码单元是否被划分为下层深度的编码单元。如果当前深度d的划分信息为0，则当前编码单元不再被划分到下层深度的深度是编码深度，因此可针对编码深度定义关于分区类型、预测模式和变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分，则对下层深度的四个划分的编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一个。可在所有分区类型中定义帧内模式和帧间模式，仅在尺寸为2N×2N的分区类型中定义跳过模式。

关于分区类型的信息可指示通过对预测单元的高度或宽度进行对称划分而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型，以及通过对预测单元的高度或宽度进行不对称划分而获得的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的不对称分区类型。可通过按照1:3和3:1对预测单元的高度进行划分来分别获得尺寸为2N×nU和2N×nD的不对称分区类型，可通过按照1:3和3:1对预测单元的宽度进行划分来分别获得尺寸为nL×2N和nR×2N的不对称分区类型。

变换单元的尺寸可被设置为帧内模式下的两种类型和帧间模式下的两种类型。换句话说，如果变换单元的划分信息是0，则变换单元的尺寸可以是2N×2N，这是当前编码单元的尺寸。如果变换单元的划分信息是1，则可通过对当前编码单元进行划分来获得变换单元。此外，如果尺寸为2N×2N的当前编码单元的分区类型是对称分区类型，则变换单元的尺寸可以是N×N，如果当前编码单元的分区类型是不对称分区类型，则变换单元的尺寸可以是N/2×N/2。

关于具有树结构的编码单元的编码信息可包括与编码深度相应的编码单元、预测单元和最小单元中的至少一个。与编码深度相应的编码单元可包括：包括相同编码信息的预测单元和最小单元中的至少一个。

因此，通过比较邻近数据单元的编码信息来确定邻近数据单元是否包括在与编码深度相应的相同编码单元中。此外，通过使用数据单元的编码信息来确定与编码深度相应的相应编码单元，从而可确定最大编码单元中的编码深度的分布。

因此，如果基于邻近数据单元的编码信息来预测当前编码单元，则可直接参考和使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。

可选地，如果基于邻近数据单元的编码信息来预测当前编码单元，则使用数据单元的编码信息来搜索与当前编码单元邻近的数据单元，并且可参考搜索到的邻近编码单元来预测当前编码单元。

图13是用于描述根据表1的编码模式信息的编码单元、预测单元或分区、变换单元之间的关系的示图。

最大编码单元1300包括多个编码深度的编码单元1302、1304、1306、1312、1314、1316和1318。这里，由于编码单元1318是编码深度的编码单元，因此划分信息可被设置为0。关于尺寸为2N×2N的编码单元1318的分区类型的信息可被设置为以下分区类型之一：尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336和尺寸为nR×2N的分区类型1338。

当分区类型被设置为对称(即，分区类型1322、1324、1326或1328)时，如果变换单元的划分信息(TU尺寸标记)为0，则设置尺寸为2N×2N的变换单元1342，如果TU尺寸标记为1，则设置尺寸为N×N的变换单元1344。

当分区类型被设置为不对称(即，分区类型1332、1334、1336或1338)时，如果TU尺寸标记为0，则设置尺寸为2N×2N的变换单元1352，如果TU尺寸标记为1，则设置尺寸为N/2×N/2的变换单元1354。

如上所述，根据本发明的实施例的视频编码设备100和视频解码设备200通过使用等于或小于最大编码单元的编码单元对最大编码单元进行划分来执行编码和解码。通过使用适合于通信信道、存储介质、视频编辑系统、媒体框架等的协议或格式的传输数据单元来对视频编码设备100中编码的数据进行复用，并且将传输数据单元发送到视频解码设备200。

在对视频数据进行再现的情况下，视频解码设备200根据特技播放方式和正常播放方式之一恢复视频数据并再现视频数据。特技播放方式包括正常播放方式、快进方式或快退方式、和随机访问方式。根据正常播放方式，包括在视频数据中的所有画面被顺序处理和再现。根据快进方式或快退方式，根据再现速度以向前或向后方式选择并再现参考画面(即，每个预定时间段中的I画面)。根据随机访问方式，以跳转到关键画面(即，在预定位置的I画面)来执行再现。根据H.264标准，瞬时解码器刷新(IDR)画面被用作随机访问方式的关键画面。IDR画面是用于当相应画面被解码时刷新解码设备的帧内画面。更详细地，当IDR画面被解码时，DPB将先前解码的除IDR画面以外的画面标记为非参考画面，画面顺序计数(POC)也被初始化。此外，在IDR画面之后被解码的画面可在显示顺序中总是在IDR画面之后，并可在不参考IDR画面之前的画面的同时被解码。

根据本实施例，除了IDR画面之外，纯净随机访问(CRA)画面也用作随机访问方式的关键帧。CRA画面可被称为纯净解码刷新(CDR)画面或延缓解码刷新(DDR)画面。CRA画面是具有在显示顺序中在前但在编码(或解码)顺序中在CRA画面之后被编码(或解码)的画面的帧内画面。在下文中，在相同的画面组(GOP)中作为CRA画面并在显示顺序中在CRA画面之前但在编码(或解码)顺序中在CRA画面之后被编码(或解码)的画面被定义为前导画面。

IDR画面和CRA画面的共同之处在于它们是随机访问方式的关键画面并且是在不需要参考其他画面的情况下被编码(或解码)的帧内画面。关于IDR画面，在编码(或解码)顺序中，在IDR画面之后的画面在显示顺序中不在IDR画面之前。然而，如上所述，关于CRA画面，前导画面在编码(或解码)顺序中在CRA画面之后，但在显示顺序中在CRA画面之前。解码顺序和编码顺序指示在解码器和编码器中画面被处理的顺序，画面的编码顺序等于画面的解码顺序。因此，在整个说明书中，编码顺序可表示解码顺序，或者解码顺序可表示编码顺序。

图14a和图14b示出根据本发明的实施例的正常再现和随机访问中的CRA画面的解码处理。

在图14a和图14b中，Bi和bi是通过使用L0预测和L1预测来预测的双向预测画面，其中，i指示显示顺序，即，POC。此外，具有大写字母“B”的Bi指示被用作另一画面的参考画面的画面，具有小写字母“b”的bi指示不被用作另一画面的参考画面的画面。

参考图14a，在正常再现中，即，当所有画面被解码和再现时，通过参考先前被解码的参考画面来对在CRA₂₄画面1410之后被解码的前导画面1420进行正常解码。例如，当在正常再现中通过使用参考B₁₈画面1401的L0预测和参考CRA₂₄画面1410的L1预测来对B₂₂画面1421进行双向预测时，可通过参考先前被解码并被存储在DPB 1430中的CRA₂₄画面1410和B₁₈画面1401来对B₂₂画面1421进行正常解码。

参照图14b，在对B₆画面1402进行解码之后经由随机访问对CRA₂₄画面1410进行解码的情况下，用于B₂₂画面1421的预测的L0预测根据L0预测的方向上的参考画面索引来确定参考画面。在这种情况下，先前被解码并被存储在DPB 1440中的B₆画面1402可被确定为用于B₂₂画面1421的L0预测的参考画面。在这种情况下，用于B₂₂画面1421的L0预测的参考画面必须是B₁₈画面1401，但是，由于随机访问，参考B₆画面1402和CRA₂₄画面1410之间的参考帧的画面不能被正常解码。

此外，参照回图14a，由于前导画面1420在显示顺序中在CRA₂₄画面1410之前，因此在经由随机访问对CRA₂₄画面1410进行解码和显示之后，前导画面1420不被显示并因此不需要被解码。

然而，视频解码设备200简单并顺序地对多条输入视频数据进行解码和输出，并因此无法识别前导画面1420是在正常再现中在CRA₂₄画面1410之后被解码的画面还是经由随机访问被解码的画面。换句话说，视频解码设备200无法识别CRA₂₄画面1410是经由随机访问被解码的画面还是在正常再现中被解码的画面。

因此，本发明的实施例提供一种复用和解复用方法，通过所述复用和解复用方法，用于识别CRA画面的再现状态的语法被添加到预定传输单元中的数据，其中，通过对CRA画面进行复用来获得所述数据，其中，CRA画面被编码为识别CRA画面根据随机访问被编码还是根据正常再现被编码。

首先，将描述视频复用设备及其方法。

图15示出根据本发明的实施例的视频数据复用设备1500的结构。

参照图15，视频数据复用设备1500包括视频编码器1510、复用器1520和再现状态识别器1530。

视频编码器1510与图1的视频编码设备100相应，基于视频数据的编码被处理的视频编码层中的分层编码单元来对视频数据进行编码。复用器1520通过使用适合于通信信道、存储介质、视频编辑系统、媒体框架等的协议或格式的传输数据单元来对视频数据进行复用。如将在稍后所描述的，复用器1520可通过使用作为在NAL中的传输单元的NAL单元来对视频数据进行复用。

当存在对来自经由通信信道、管理存储介质的设备、视频编辑系统和媒体框架(以下，统称为“解码设备”)连接的客户端的编码视频数据的传输请求时，再现状态识别器1530识别传输请求是根据正常再现针对视频数据的顺序再现还是根据随机访问针对视频数据的传输。再现状态识别器1530可将通过解码设备请求的画面的显示时间与通过当前解码设备当前显示的画面的显示时间进行比较，并随后可识别视频数据的传输请求根据随机访问而发生。

复用器1520基于通过再现状态识别器1530的识别结果，将预定语法添加到NAL单元中，其中NAL单元包括关于作为随机访问的关键画面的CRA画面的信息，其中，预定语法指示经由正常再现的请求和经由随机访问的请求中的哪个请求与CRA画面有关。

图16示出根据本发明的实施例的NAL单元1600的结构。

参照图16，NAL单元1600由NAL头1610和原始字节序列载荷(RBSP)1620。RBSP填充比特1630是被附在RBSP 1620的末端以将RBSP 1620的长度表达为8比特倍数的长度调整比特。RBSP填充比特1630具有以“1”开始并接着根据RBSP 1620的长度确定的连续的“0”(诸如“100…”)的样式。在这方面，通过搜索作为初始比特值的“1”，可确定正好在初始比特值之前的RBSP 1620的最后比特的位置。

NAL头1610包括forbidden_zero_bit 1611、flag nal_ref_idc等，其中，forbidden_zero_bit 1611具有值0，flag nal_ref_idc指示NAL单元1600是否包括将作为参考画面的条带。具体地说，根据本实施例的NAL头1610包括状态识别语法1612，状态识别语法1612指示经由正常再现的请求和经由随机访问的请求之中的哪个请求与被添加到包括关于CRA画面的信息的NAL单元1600的CRA画面有关。

用于识别CRA画面的再现状态的状态识别语法1612可被包括在指示NAL单元1600的类型的标识符(nal单元类型)中。也就是说，用于对根据经由正常再现的请求提供的CRA画面进行解码的NAL单元可具有与用于对根据经由随机访问提供的CRA画面进行解码的NAL单元的标识符(nal单元类型)不同类型的标识符(nal单元类型)。

表2示出根据标识符(nal单元类型)的值的NAL单元1600的类型。

[表2]

nal_unit_type	NAL单元的类型
		0	未指定
1	除了RAP、TFD、TLA画面之外的画面条带
		2	TFD画面条带
3	除了TFD之外的TLA画面条带
		4,5	CRA画面的条带
6,7	BLA画面的条带
		8	IDR画面的条带
9-24	为将来扩展保留
		25	VPS
26	SPS
		27	PPS
28	APS
		29	访问单元(AU)分隔符
30	填充数据
		31	补充增强信息(SEI)
32-47	为将来扩展保留
		48-63	未指定

复用器1520将上面的表2中的不同的值4和5作为标识符(nal单元类型)分配到用于对根据经由正常再现的请求提供的CRA画面进行解码的NAL单元和用于对根据经由随机访问的请求提供的CRA画面进行解码的NAL单元。通过这样做，复用器1520可用信号发送包括以下信息的NAL单元，所述信息关于CRA画面是根据正常再现设置的CRA画面和根据随机访问设置的CRA画面之中的哪一个。

此外，复用器1520可使用标记作为添加到NAL单元的头的语法，其中，所述标记被设置为针对被用于对根据经由正常再现的请求提供的CRA画面进行解码的NAL单元和被用于对根据经由随机访问的请求提供的CRA画面进行解码的NAL单元，具有不同值0和1中的一个值。

图17a和图17b示出根据本发明的另一实施例的在正常再现和随机访问中的CRA画面的解码处理。

根据当前实施例，复用器1520将直接指示CRA画面的再现状态的类型信息添加到NAL单元。在另一实施例中，复用器1520可不直接用信号发送将CRA画面的再现状态的类型，而可通过使用在CRA画面之前解码的关键画面的计数器和通过使用关于被用作前导画面的参考画面的画面的POC的信息来识别CRA画面根据正常再现被再现还是根据随机访问被再现。

参照图17a和图17b，B₃₈画面1710和B₄₀画面1720是在CRA₄₄画面之前解码并被作为前导画面的b₄₁、B₄₂和b₄₃参考的画面。B₃₈画面1710被作为前导画面B₄₂画面参考，B₄₀画面1720被作为前导画面的B₄₁画面参考。在解码顺序中在CRA画面之前并且被用作前导画面的参考画面的B₃₈画面1710和B₄₀画面1720被定义为兄弟画面。定义为兄弟画面的原因在于通过使用兄弟画面的POC可识别CRA画面根据正常再现被再现还是根据随机访问被再现。

例如，参照图17a，在画面在正常再现状态下被顺序解码时，当CRA₄₄画面被解码时，先前被解码的B₃₈画面1710和B₄₀画面1720被存储在DPB 1740中。如果B₃₈画面1710的POC值38和B₄₀画面1720的POC值40被添加到CRA₄₄画面的条带头(B₃₈画面1710和B₄₀画面1720是兄弟画面)，则解码器可将在对CRA₄₄画面进行解码时被先前解码并存储在DPB 1740中的画面的POC与包括在CRA₄₄画面的条带头中的兄弟画面的POC进行比较，从而可识别CRA₄₄画面根据随机访问被再现还是根据正常再现被再现。由于在根据随机访问的再现中再现顺序(即，解码顺序)跳转到CRA₄₄画面，因此，如果在对CRA₄₄画面解码时被先前解码并存储在DPB 1740中的画面的POC与兄弟画面的POC不匹配，则CRA₄₄画面很可能根据随机访问被再现。

然而，仅通过使用关于兄弟画面的POC的信息，CRA₄₄画面也有可能被错误识别(关于CRA₄₄画面根据随机访问被再现还是根据正常再现被再现)。

例如，参照图17b，在CRA₄₄画面在B₄₀画面1745被解码之后根据随机访问被解码的情况下，当CRA₄₄画面被解码时，B₄₀画面1745的POC值40被存储在DPB 1780中，并且存储在CRA₄₄画面的条带头中的兄弟画面的POC值40等于存储在DPB 1780中的先前画面的POC值，从而解码器可能错误地识别出CRA₄₄画面根据正常再现被再现。如上所述，仅通过使用关于兄弟画面的POC，可能不能正确地识别CRA画面的再现状态。这是因为每当IDR画面被解码时，POC被重置，从而在随机访问时与将被兄弟画面参考的实际参考画面不同的参考画面可具有与兄弟画面的POC相同的POC。

因此，复用器1520将兄弟画面的POC信息添加到CRA画面的传输单元数据的语法，从POC不连续计数器(PDC)获得计数，并将来自PDC的计数添加到语法，其中，PDC是在CRA画面之前的画面被编码的同时每当POC被重置或CRA画面被编码时将值增加1的计数器。

返回参照图17a，如上所述，在画面被编码时，每当POC被重置或CRA画面被编码时，复用器1520都将来自PDC的计数增加1。由于每当IDR画面被编码时POC被重置，因此，每当IDR画面被编码时，PDC的值增加1，并且当除了CRA₄₄画面之外的先前CRA画面被编码时，来自PDC的计数的值增加1。复用器1520将PDC的值与兄弟画面的POC添加到CRA画面的传输单元数据的头1730。在输入的传输单元数据被解码时，每当POC被重置时(即，每当IDR画面被解码或CRA画面被解码时)，解码器以与编码器相同的方式将来自PDC的计数增加1。如图17a所示，在正常再现的情况下，当CRA₄₄画面被解码时，包括在被用于对CRA₄₄画面进行复用的传输单元数据的头1730中的PDC值以及在画面被解码器解码的同时计数的PDC值1745都是3。

返回参照图17b，在随机访问的情况下，存在在CRA₄₄画面之前被解码的一个IDR画面和一个CRA画面，从而当CRA₄₄画面根据随机访问被解码时，PDC值1785为2，这与值为3并被包括用于对CRA₄₄画面进行复用的传输单元数据的头1770中的PDC值不同。因此，基于PDC值之间的不匹配，解码器可确定当前CRA画面根据随机访问被再现。

参照图18，在操作1810，视频编码器1510基于具有分层结构的数据单元对形成视频数据的画面进行编码。如上所述，视频编码器1510确定树结构编码单元，确定用于对每个具有编码深度的编码单元进行预测编码的分区，基于分层结构变换单元执行变换，并随后确定树编码变换单元，其中，树结构编码单元包括根据深度而分成形成的根据深度的较深层编码单元中的具有编码深度的编码单元，所述深度指示通过使用最大尺寸编码单元对形成视频的画面进行划分而获得的至少一个最大编码单元的空间划分计数。在分层数据单元的确定中，可基于率失真(RD)代价来确定最佳分层数据单元的结构。

在操作1820，响应于来自解码设备的对编码数据的发送请求，再现状态识别器1530确定发送请求根据正常再现还是针对随机访问。如上所述，解码设备可共同指示用于存储、再现和编辑编码视频数据的设备，并可包括经由通信信道连接的客户端、管理存储介质的设备、视频编辑系统、媒体框架等。

在操作1830，复用器1520根据在操作1820中的确定结果，将预定语法添加到被用于对作为具有前导画面的帧内画面的CRA画面进行复用的传输单元数据，其中，预定语法指示经由正常再现的请求和经由随机访问的请求之中的哪个请求与CRA画面有关。如上所述，前导画面表示在显示顺序中在CRA画面之前并且在编码顺序中在CRA画面之后被编码的画面。此外，传输单元数据可以是NAL数据。此外，复用器1520可将指示NAL单元的类型的标识符(nal单元类型)添加到NAL单元的头，从而被用于对根据经由正常再现的请求提供的CRA画面进行复用的NAL单元可具有与被用于对根据经由随机访问的请求提供的CRA画面进行复用的NAL单元的标识符(nal单元类型)不同的标识符(nal单元类型)。此外，复用器1520可将标记添加到NAL单元的头，其中，所述标记根据用于对根据经由正常再现的请求提供的CRA画面进行复用的NAL单元和用于对根据经由随机访问的请求提供的CRA画面进行复用的NAL单元具有0或1的值。此外，在画面被复用时，每当POC被重置或CRA画面被编码时，复用器1520可获得增加1的来自PDC的计数，并可将CRA画面的兄弟画面的POC信息和来自PDC计数添加到NAL单元的头。

参照图19，视频数据反向复用设备1900包括视频解码器1910、反向复用器1920和再现状态识别器1930。

反向复用器1920接收从图15的视频数据复用设备1500发送的传输单元数据(即，NAL单元数据)，并从用于对CRA画面进行复用的NAL单元数据获得指示CRA画面根据正常再现状态还是根据随机访问状态被解码的语法。

再现状态识别器1930通过使用获得的语法确定CRA画面根据正常再现还是根据随机访问被再现。

如上所述，当被用于对根据经由正常再现的请求提供的CRA画面进行复用的NAL单元被设置为具有与被用于对根据经由随机访问的请求提供的CRA画面进行复用的NAL单元的标识符(nal单元类型)不同的标识符(nal单元类型)时，再现状态识别器1930可通过参考标识符(nal单元类型)的值来识别当前CRA画面的解码状态。如果NAL单元的头被添加了以下标记，则再现状态识别器1930可通过参考关于所述标记的信息来识别当前CRA画面的解码状态，其中，所述标记根据用于对根据经由正常再现的请求提供的CRA画面进行复用的NAL单元和用于对根据经由随机访问的请求提供的CRA画面进行复用的NAL单元具有0或1的值。

此外，当NAL单元的头包括来自PDC的计数和兄弟画面的POC信息时，在先前画面被解码时，每当IDR画面或CRA画面被解码，再现状态识别器1930增加来自PDC的计数，并确定在对当前CRA画面进行解码时从NAL单元的头获得的来自PDC的计数与在解码处理中计数的PDC之间的匹配性。此外，再现状态识别器1930确定包括在NAL单元的头中的CRA画面的兄弟画面的POC值与在对当前CRA画面进行解码时存储在DPB中的先前画面的POC值之间的匹配性。如果来自PDC的计数或POC值中的任何一个不匹配，则再现状态识别器1930确定当前CRA画面根据随机访问被再现，如果来自PDC的计数和POC值两者匹配，则再现状态识别器1930确定当前CRA画面根据正常再现被再现。如果当前CRA画面根据随机访问被再现，则不必对当前CRA的前导画面进行解码，从而再现状态识别器1930向视频解码器1910通知当前CRA的前导画面不需要被解码。

视频解码器1910与图2的视频解码设备200或图5的图像解码器500相应。视频解码器1910从NAL单元获得编码图像数据以及与编码处理有关的关于用于产生编码图像数据的编码单元的划分信息、分区类型信息、预测模式信息、变换单元尺寸信息和参考设置信息，并执行解码。

图20是根据本发明的实施例的反向复用视频数据的方法的流程图。

参照图20，在操作2010，反向复用器1920接收用于对比特流进行复用的传输单元数据，所述比特流通过基于分层结构数据单元对形成视频数据的画面进行编码而产生。如上所述，传输单元数据可以是NAL单元数据。

在操作2020，反向复用器1920从用于对CRA画面进行复用的NAL单元数据获得指示CRA画面根据正常再现状态还是根据随机访问状态被解码的语法。

在操作2030，再现状态识别器1930基于获得的语法识别CRA画面根据正常再现还是根据随机访问被再现。如上所述，当NAL单元的头通过使用标识符(nal单元类型)用信号发送CRA画面的解码状态时，再现状态识别器1930可通过参考标识符(nal单元类型)的值来识别当前CRA画面的解码状态。如果具有0或1的值的标记被添加到NAL单元的头，则再现状态识别器1930可通过参考标记的信息来识别当前CRA画面的解码状态。此外，当PDC和兄弟画面的POC信息被包括在NAL单元的头中时，再现状态识别器1930可通过确定在解码处理中获得的PDC和包括在NAL单元的头中的PDC之间的匹配性以及存储在DPB中的先前画画的POC值与兄弟画面的POC值之间的匹配性，识别当前CRA画面的解码状态。

当确定CRA画面根据随机访问被再现时，CRA画面的前导画面不被显示，并因此不需要被解码。根据本发明的实施例，根据随机访问被再现的CRA画面可被识别，从而CRA画面的前导画面可不被解码，并因此解码设备的系统资源可被节省。

本发明还可被实现为在计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储可在之后被计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储装置等。计算机可读记录介质还可被分布在联网的计算机系统上，从而计算机可读代码以分布式方式被存储和执行。

虽然已参照本发明的优选实施例具体示出和描述了本发明，但是本领域的普通技术人员在不脱离由权利要求定义的本发明的精神和范围的情况下可进行形式和细节上的各种改变。因此，本发明的范围不是由本发明的详细说明定义而是由权利要求限定，在所述范围内的所有差别将被解释为包括在本发明中。

Claims

1.一种视频解码设备，包括：

处理器，被配置为从比特流接收包含头的网络抽象层(NAL)单元，从所述头获取指示当前画面的类型的类型信息和指示当前画面根据正常再现还是根据随机访问而被再现的随机访问标记，如果类型信息和随机访问标记指示当前画面是在正常再现中使用的纯净随机访问画面，则通过参考在当前画面之前解码的画面来对在显示顺序中在当前画面之前但在解码顺序中在当前画面之后的前导画面进行解码，如果类型信息和随机访问标记指示当前画面是在随机访问中使用的纯净随机访问画面，则跳过对前导画面的解码，

其中，当前画面被划分为多个最大编码单元，

其中，所述多个最大编码单元中的一个被划分为多个编码单元。

2.一种视频编码设备，包括：

处理器，被配置为对当前画面进行编码，并产生包括包含头的网络抽象层(NAL)单元的比特流，其中，所述头包括指示当前画面的类型的类型信息和指示当前画面根据正常再现还是根据随机访问而被再现的随机访问标记，

其中，类型信息和随机访问标记指示当前画面是否是在正常再现中使用的纯净随机访问画面以用于通过参考在当前画面之前解码的画面来对在显示顺序中在当前画面之前但在解码顺序中在当前画面之后的前导画面进行解码，或者类型信息和随机访问标记指示当前画面是否是在随机访问中使用的纯净随机访问画面以用于跳过对前导画面的解码，

其中，当前画面被划分为多个最大编码单元，

3.一种存储比特流的非暂时性计算机可读存储介质，所述比特流包括：

编码的当前画面；以及

网络抽象层(NAL)单元，包含头，其中，所述头包括指示当前画面的类型的类型信息和指示当前画面根据正常再现还是根据随机访问而被再现的随机访问标记，

其中，当前画面被划分为多个最大编码单元，其中，最大编码单元具有正方形形状，