CN106105210A

CN106105210A - 管理用于对多层视频进行编码和解码的缓冲器的方法和设备

Info

Publication number: CN106105210A
Application number: CN201580011878.8A
Authority: CN
Inventors: 崔秉斗; 金赞烈; 朴慜祐; 李振荣; 曹容振
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-01-03
Filing date: 2015-01-05
Publication date: 2016-11-09
Anticipated expiration: 2035-01-05
Also published as: KR20150081235A; CN106105210B; US20160323592A1; US10136145B2; WO2015102439A1; KR102212211B1

Abstract

公开了一种针对用于对多层视频进行解码的方法的方法，该方法用于从比特流有效地获取指示用于包括多个层的层集合的解码画面缓冲器(DPB)的最大大小的信息。

Description

管理用于对多层视频进行编码和解码的缓冲器的方法和设备

技术领域

本公开涉及对多层视频进行解码和编码的方法，更具体地讲，涉及一种管理用于对多层视频进行解码和编码的缓冲器的方法和设备。

背景技术

通常，图像数据由编解码器根据特定数据压缩标准(例如，运动图像专家组(MPEG)标准)进行编码，并随后以比特流的形式被存储在存储介质中或通过通信信道被发送。

可伸缩视频编码(SVC)是用于根据各种通信网络和终端适当地调整并发送数据量的视频压缩方法。SVC提供使用一个视频流在各种传输网络和各种接收终端中被自适应使用的视频编码方法。

此外，最近用于3维(3D)视频编码的多视点视频编码技术根据3D多媒体装置和3D多媒体内容的供应被广泛地提供。

基于这样的普通SVC或多视点视频编码，根据基于块的特定尺寸而被限制的编码方法对视频进行编码。

发明内容

技术问题

根据实施例的管理用于对多层视频进行解码和编码的缓冲器的方法和设备通过用信号传送指示根据多层集合的重建画面缓冲器的最大大小的信息来防止重建画面缓冲器的溢出，并有效地管理重建画面缓冲器的大小。

当然，本公开的技术问题不限于此，通过以下描述，其它技术问题对于本领域普通技术人员而言将变得显而易见。

附图说明

图1a是根据实施例的多层视频编码设备的结构的框图。

图1b是根据实施例的多层视频编码方法的流程图。

图2a是根据实施例的多层视频解码设备的结构的框图。

图2b是根据实施例的多层视频解码方法的流程图。

图3a示出根据实施例的层间预测结构。

图3b示出根据实施例的多层视频。

图4示出根据实施例的包括多层视频的编码数据的网络抽象层(NAL)单元。

图5a示出根据实施例的根据时间分层编码和解码方法的时间子层预测结构。

图5b是根据实施例的根据时间子层来管理解码画面缓冲器的方法的流程图。

图6a是根据实施例的管理用于对多层视频进行解码的缓冲器的方法的流程图。

图6b是示出确定层格式组的示例的示图。

图7a示出根据实施例的与用于对多层视频进行解码的缓冲器的大小相关的语法的示例。

图7b示出根据实施例的与用于对多层视频进行解码的缓冲器的大小相关的语法的另一示例。

图8示出根据实施例的基于树结构的编码单元的视频编码设备的框图。

图9示出根据实施例的基于树结构的编码单元的视频解码设备的框图。

图10示出根据实施例的编码单元的概念。

图11示出根据实施例的基于编码单元的图像编码器的框图。

图12示出根据实施例的基于编码单元的图像解码器的框图。

图13示出根据实施例的根据深度的较深层编码单元和分区。

图14示出根据实施例的编码单元和变换单元之间的关系。

图15示出根据实施例的根据深度的多条编码信息。

图16示出根据实施例的根据深度的较深层编码单元。

图17、图18和图19示出根据实施例的编码单元、预测单元和变换单元之间的关系。

图20示出根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系。

图21示出根据各种实施例的存储程序的盘的物理结构。

图22示出通过使用盘来记录和读取程序的盘驱动器。

图23示出用于提供内容分发服务的内容供应系统的整体结构。

图24和图25示出根据实施例的应用了视频编码方法和视频解码方法的移动电话的外部结构和内部结构。

图26示出根据实施例的采用通信系统的数字广播系统。

图27示出根据实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构。

最佳实施方式

根据实施例的一方面，一种多层视频解码方法包括：从比特流获取指示关于包括多个层的层集合的解码画面缓冲器(DPB)的最大大小的信息；基于获取的指示DPB的最大大小的信息来确定关于所述层集合DPB的大小；将所述层集合的解码画面存储在具有确定的大小的DPB中，其中，获取指示关于包括多个层的层集合的DPB的最大大小的信息的步骤包括：当所述层集合包括多个时间子层时，根据所述层集合中所包括的时间子层获取指示DPB的最大大小的信息，其中，根据所述层集合中所包括的时间子层获取指示DPB的最大大小的信息的步骤包括：当在所述层集合中所包括的所述多个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，获取指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，获取指示根据时间子层的DPB的最大大小的信息。

指示与在所述层集合中所包括的所述多个时间子层之中的第一索引的时间子层有关的DPB的最大大小的信息指示这样的DPB的最大大小：该DPB的最大大小等于或大于与级别比第一索引低的第二索引的时间子层有关的DPB的最大大小。

所述多层视频解码方法还可包括：确定是否能够从比特流获取指示与所述层集合中所包括的层格式组有关的子DPB的最大大小的信息；当确定能够获取指示所述子DPB的最大大小的信息时，获取指示所述子DPB的最大大小的信息。

所述多层视频解码方法还可包括：确定与所述层集合中所包括的层格式组有关的子DPB的大小；将所述层格式组的解码画面存储在具有确定的大小的子DPB中。

获取指示所述子DPB的最大大小的信息的步骤可包括：当所述层集合包括所述多个时间子层时，根据所述层集合中所包括的时间子层来获取指示与所述层格式组有关的所述子DPB的最大大小的信息。

获取指示关于包括多个层的层集合的DPB的最大大小的信息的步骤可包括：从包括高效视频编码(HEVC)网络抽象层(NAL)单元的比特流中的每个NAL的原始字节序列有效载荷(RBSP)的视频参数集(VPS)扩展区获取指示DPB的最大大小的信息。

根据另一实施例的一方面，一种多层视频解码设备，包括：获取器，被配置为从比特流获取指示关于包括多个层的层集合的解码画面缓冲器(DPB)的最大大小的信息；DPB，具有与所述层集合有关的大小，其中，与所述层集合有关的大小是基于获取的指示DPB的最大大小的信息来确定的；解码器，被配置为将所述层集合的解码画面存储在具有确定的大小的DPB中，其中，当所述层集合包括多个时间子层时，获取器根据所述层集合中所包括的时间子层获取指示子DPB的最大大小的信息，当指示子DPB的最大大小的信息根据时间子层被获取时，在所述层集合中所包括的所述多个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，指示根据时间子层的DPB的最大大小的信息被获取，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，指示根据时间子层的DPB的最大大小的信息被获取。

指示与在所述层集合中所包括的所述多个时间子层之中的第一索引的时间子层有关的DPB的最大大小的信息可指示这样的DPB的最大大小：该DPB的最大大小等于或大于与级别比第一索引低的第二索引的时间子层有关的DPB的最大大小。

获取器可确定是否能够从比特流获取指示与所述层集合中所包括的层格式组有关的子DPB的最大大小的信息，并且当确定能够获取指示所述子DPB的最大大小的信息时，还获取指示与所述层格式组有关的所述子DPB的最大大小的信息。

DPB可包括基于指示所述子DPB的最大大小的信息而确定的至少一个子DPB，所述格式组的解码画面可被存储在确定的所述至少一个子DPB中。

获取器可从包括高效视频编码(HEVC)网络抽象层(NAL)单元的比特流中的每个NAL的原始字节序列有效载荷(RBSP)的视频参数集(VPS)扩展区获取指示DPB的最大大小的信息。

根据另一实施例的一方面，一种多层视频编码方法包括：确定多个层集合，其中，所述多个层集合中的每一个层集合包括多个编码层之中的至少一个层；确定与确定的所述多个层集合中的每一个层集合有关的解码画面缓冲器(DPB)的最大大小；产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息，其中，产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息的步骤包括：当所述多个层集合中的每一个层集合包括多个时间子层时，根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息，其中，根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息的步骤包括：当在所述多个层集合中的每一个层集合中所包括的所述至少一个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，产生指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，产生指示根据时间子层的DPB的最大大小的信息。

根据另一实施例的一方面，一种多层视频编码设备包括：解码器，被配置为通过对多层视频进行编码来产生多个编码层；比特流产生器，被配置为确定多个层集合，其中，所述多个层集合中的每一个层集合包括所述多个编码层之中的至少一个层，确定与确定的所述多个层集合中的每一个层集合有关的解码画面缓冲器(DPB)的最大大小，并产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息，其中，当所述多个层集合中的每一个层集合包括多个时间子层时，比特流产生器根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息，当在所述多个层集合中的每一个层集合中所包括的所述至少一个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，比特流产生器产生指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，比特流产生器产生指示根据时间子层的DPB的最大大小的信息。

根据另一实施例的一方面，一种计算机可读记录介质记录有程序，该程序在被计算机执行时执行所述多层视频编码方法。

具体实施方式

在下文中，将参照图1a至图7b描述根据实施例的多层视频编码设备、多层视频解码设备、多层视频编码方法和多层视频解码方法。

此外，将参照图8至图20描述根据实施例的基于树结构的编码单元的视频编码设备、视频解码设备、视频编码方法和视频解码方法。

此外，将参照图21至图27描述可应用根据图1a至图20的实施例的多层视频编码方法、多层视频解码方法、视频编码方法和视频解码方法的实施例。在下文中，“图像”可表示视频的静止图像或运动画面(即，视频本身)。

首先，将参照图1a至图7b描述根据实施例的多层视频编码设备、多层视频编码方法、多层视频解码设备和多层视频解码方法。

图1a是根据本公开的实施例的多层视频编码设备的结构的框图。

参照图1a，根据本公开的实施例的多层视频编码设备10包括编码器12、比特流产生器14和解码画面缓冲器(DPB)14。

根据实施例的多层视频编码设备10可通过根据层对视频流进行分类，根据可伸缩视频编码方法对多个视频比特流进行编码。视频流编码设备10可将基本层图像和增强层图像编码为不同的层。

例如，可根据可伸缩视频编码方法对多视点视频进行编码。左视点图像可被编码为基本层图像，右视点图像可被编码为增强层图像。可选地，中心视点图像、左视点图像和右视点图像可被分别编码，其中，中心视点图像可被编码为基本层图像，左视点图像可被编码为第一增强层图像，右视点图像可被编码为第二增强层图像。基本层图像的编码结果可被输出为基本层流，第一增强层图像和第二增强层图像的编码结果可被分别输出为第一增强层流和第二增强层流。

此外，当存在至少三个增强层时，基本层图像和第一增强层图像至第K增强层图像被编码。因此，基本层图像的编码结果可被输出为基本层流，第一增强层图像至第K增强层图像的编码结果可被分别输出为第一增强层流至第K增强层流。

根据实施例的多层视频编码设备10可执行通过参考相同层中的图像来对当前图像进行预测的帧间预测。通过帧间预测，可产生表示当前图像与参考图像之间的运动信息的运动矢量以及当前图像与参考图像之间的残差。

此外，根据实施例的多层视频编码设备10可执行通过参考基本层图像来对增强层图像进行预测的层间预测。多层视频编码设备10可执行通过参考第一增强层图像来对第二增强层图像进行预测的层间预测。通过层间预测，可产生当前图像和与当前图像的层不同的层的参考图像之间的位置差分量以及当前图像与所述不同的层的参考图像之间的残差。

当根据实施例的多层视频流编码设备10允许至少两个增强层时，可根据多层预测结构在一个基本层图像与所述至少两个增强层图像之间执行层间预测。

稍后将参照图3a描述层间预测结构。

根据实施例的多层视频编码设备10针对每个层根据块对视频的每个图像进行编码。块的类型可以是正方形或矩形，或者可以是任意几何形状。块不限于具有统一尺寸的数据单元。根据实施例的块可以是具有树结构的编码单元之中的最大编码单元、编码单元、预测单元或变换单元。例如，多层视频编码设备10可针对每个层根据HEVC标准将图像划分为具有四叉树结构的块并对图像进行编码。稍后将参照图8至图20描述基于根据树结构的编码单元的视频编码方法和视频解码方法。可基于编码单元、预测单元或变换单元的数据单元来执行帧间预测和层间预测。

根据实施例的编码器12可根据至少一个层来对图像序列进行编码。编码器12可通过针对每个层执行包括帧间预测或帧内预测的源编码操作来产生符号数据。例如，编码器12可通过对图像块执行变换和量化来产生符号数据，并对符号数据执行编码，其中，图像块包括对图像样点执行帧间预测或帧内预测的结果数据。比特流产生器14可产生包括被执行了熵编码的符号数据的比特流。

此外，编码器12可针对每个层对图像序列进行编码，比特流产生器14可产生比特流。如上所述，编码器12可经由层间预测通过参考与当前层图像序列不同的层的符号数据来对当前层图像序列进行编码。因此，根据实施例的编码器12可通过根据预测模式参考不同层或相同层的图像序列来对每个层的图像序列进行编码。例如，在帧内模式下，可通过使用当前图像中的邻近样点来预测当前样点，在帧间模式下，可通过使用同一层中的另一图像来对当前图像进行预测。在层间预测模式下，可通过使用在其它层图像之中的与当前图像相同的画面顺序计数(POC)的参考图像来对当前图像进行预测。

通过上述视频编码层(VCL)中的编码处理，编码器12可输出与编码单元相关的残差信息、预测模式信息、以及与编码单元的预测编码相关的附加信息，比特流产生器14可将附加信息产生为比特流。

这里，比特流产生器14对应于网络抽象层(NAL)，其中，网络抽象层(NAL)根据特定格式将由编码器12产生的多层编码图像和附加信息添加到传输数据单元并输出多层编码图像和附加信息。传输数据单元可以是NAL单元。比特流产生器14通过将多层编码图像和附加信息添加到NAL单元来输出NAL单元。比特流产生器14可输出通过使用NAL单元产生的比特流。

附加信息可包括DPB相关信息和关于时间子层排序的信息，其中，DPB相关信息包括指示由解码设备对图像帧进行解码所需的DPB的最大大小的信息(max_vps_dec_pic_buffering_minus1)、指示需要被重新排列的图像帧的数量的重新排列帧数量信息(max_vps_num_reorder_pics)、用于确定最大延迟帧的最大延迟增加信息(max_vps_latency_increase_plus1)。DPB相关信息可根据层或根据每个层中所包括的子层而被包括。

同时，DPB临时存储重建图像以按照显示顺序来输出重建图像，或者临时存储针对帧间预测和层间预测的参考图像。然而，由于解码设备中包括的DPB具有物理有限大小，因此多层视频编码设备10可产生并发送指示DPB的最大大小的信息，使得DPB的大小被有效地管理。这里，多层视频编码设备10可根据层集合、时间子层和/或层格式组来产生并发送DPB相关信息(例如，DPB的最大大小)，使得解码设备有效地管理DPB。

在下文中，将详细描述由多层视频编码设备10产生DPB相关信息的方法。

根据实施例的编码器12可将图像数据编码为多层编码图像。此外，根据实施例的比特流产生器14可产生包括指示层集合的索引的附加信息，并且产生包括所产生的索引和多层编码图像的比特流。

这里，层集合表示从多层视频解码设备输出且包括至少一个层的组。例如，多层视频编码设备10可编码出包括具有不同分辨率的多个层的空间可伸缩比特流。随后，解码设备可首先对具有低分辨率的层进行解码，并且通过参考解码的层来执行层间预测以对具有更高分辨率的层进行解码。此时，被解码的分辨率的程度可根据解码设备而不同，因此多层视频编码设备10可将具有特定分辨率的层以及将被参考以对所述特定分辨率进行解码的层确定为层集合。因此，可确定分别包括至少一个层的多个层集合。

作为另一示例，当多视点可伸缩比特流包括被编码并具有不同视点的层时，解码设备可首先对指示左视点图像的基本层进行解码，并通过参考基本层对指示右视点图像和中心视点图像的增强层进行解码。在此情况下，多层视频编码设备10可将具有左视点、右视点和中心视点的层确定为一个层集合并对其进行发送。

比特流产生器14可确定与所确定的多个层集合中的每一个层集合有关的DPB的最大大小，并产生指示与所确定的多个层集合中的每一个层集合有关的DPB的最大大小的信息。

此外，比特流产生器14可根据层集合和根据时间子层来产生指示DPB的最大大小的信息。

时间子层是被分层编码以使得视频的帧率被不同地调整的图像，并且可用时间索引(Temporal_id)来进行区分。因此，在时间分层结构中具有时间索引1的画面可被用作具有时间索引1或具有高于1的时间索引2、3等的画面的参考画面。然而，具有时间索引1的画面不能被用作具有时间索引0的画面的参考画面。随后将参照图5a详细地描述时间分层结构。

此外，多层视频编码设备10可根据层集合中包括的层格式组来产生指示重建画面缓冲器的最大大小的信息。

层集合可包括根据特定条件的子组(例如，包括具有相同图像格式的至少一个层的格式组)，比特流产生器14可根据子组来确定子DPB的最大大小，并产生指示所确定的子DPB的最大大小的信息。

因此，多层视频编码设备10可根据层集合、包括在层集合中的时间子层或层格式组，用信号传送指示重建画面缓冲器的最大大小的信息，使得解码设备有效地管理重建画面缓冲器的大小。

同时，比特流产生器14可产生包括所产生的索引的VPS NAL单元，并产生包括VPSNAL单元的比特流。比特流产生器14可产生包括由图像编码器12产生的索引和多层编码图像的比特流。

图1b是根据实施例的多层视频编码方法的流程图。

在操作S11，多层视频编码设备10可确定分别包括多个编码层之中的至少一个层的多个层集合。此外，多层视频编码设备10可确定时间子层和层格式组。

在操作S13，多层视频编码设备10可确定与多个层集合中的每个层集合有关的DPB的最大大小。此外，多层视频编码设备10可根据包括在层集合中的时间子层和层格式组来确定DPB的最大大小。

在操作S15，多层视频编码设备10可产生指示与多个层集合中的每个层集合有关的DPB的最大大小的信息，并将该信息添加到比特流。此外，多层视频编码设备10可按照时间子层和层格式组中的每一个来产生指示DPB的最大大小的信息，并将该信息添加到比特流。

这里，指示DPB的最大大小的信息可被包括在包含高效视频编码(HEVC)NAL单元的比特流之中的每个NAL单元的原始字节序列有效载荷(RBSP)之中的视频参数集(VPS)扩展区或视频可用性信息(VUI)中。

图2a是根据实施例的多层视频解码设备的结构的框图。

参照图2a，多层视频解码设备20可包括获取器22、图像解码器24和DPB 26。

根据实施例的多层视频解码设备20可接收基本层流和增强层流。多层视频解码设备20可根据可伸缩视频编码方法接收包括基本层图像的编码数据的基本层流和包括增强层图像的编码数据的增强层流。

多层视频解码设备20可根据可伸缩视频编码方法对多个层流进行解码。多层视频解码设备20可通过对基本层流进行解码来重建基本层图像，并通过对增强层流进行解码来重建增强层图像。

例如，多视点视频可根据可伸缩视频编码方法被编码。可通过对基本层流进行解码来重建左视点图像，可通过对增强层流进行解码来重建右视点图像。作为另一示例，可通过对基本层流进行解码来重建中心视点图像。可通过除了对基本层流进行解码之外还对第一增强层流进行解码来重建左视点图像。可通过除了对基本层流进行解码之外还对第二增强层流进行解码来重建右视点图像。

多层视频解码设备20可从基本层流和增强层流获得基本层图像和增强层图像的编码数据，并且可进一步获得经由帧间预测而产生的运动矢量以及经由层间预测而产生的视差信息。

例如，多层视频解码设备20可根据层对帧间预测数据进行解码，并对多个层之间的层间预测数据进行解码。可经由基于根据实施例的编码单元或预测单元的运动补偿和层间解码来执行重建。

对于每个层流，可通过以下操作来重建图像：通过参考经由相同层的帧间预测而预测出的重建图像来对当前图像执行运动补偿。运动补偿是通过对使用当前图像的运动矢量而确定的参考图像和当前图像的残差进行合成来重建当前图像的重建图像的操作。

此外，根据实施例的多层视频解码设备20可执行参考基本层图像的层间解码，以重建经由层间预测而预测的增强层图像。层间解码是通过对使用当前图像的视差信息而确定的不同层的参考图像与当前图像的残差进行合成来重建当前图像的重建图像的操作。

根据实施例的多层视频解码设备20可执行用于重建通过参考第一增强层图像而预测的第二增强层图像的层间解码。

多层视频解码设备20根据每个视频的图像的块来执行解码。根据实施例的块可以是根据树结构的编码单元之中的最大编码单元、编码单元、预测单元或变换单元。例如，多层视频解码设备20可通过基于根据HEVC标准确定的四叉树结构的块对每个层流进行解码来重建图像序列。

解码器24可根据层获得经由熵解码而重建的符号数据。解码器24可通过使用符号数据执行反量化和逆变换来重建残差的量化后的变换系数。根据另一实施例的解码器24可接收量化后的变换系数的比特流。作为对量化后的变换系数执行反量化和逆变换的结果，图像的残差可被重建。

根据实施例的解码器24可通过对根据层被接收的比特流进行解码来重建图像序列。

解码器24可经由相同层图像之间的运动补偿以及经由不同层图像之间的层间预测，根据层来产生图像序列的重建图像。

因此，根据实施例的解码器24可根据预测模式通过参考不同层的图像序列的相同层的图像序列来对每个层的图像序列进行解码。例如，在帧内预测模式下，可通过使用相同图像中的邻近样点来重建当前块，在帧间预测模式下，可通过参考相同层的另一图像来重建当前块。

同时，根据实施例的获取器22可从比特流获取指示与包括多个层的层集合有关的DPB的最大大小的信息。

此外，当层集合包括多个时间子层时，获取器22可根据层集合中所包括的时间子层来获取指示DPB的最大大小的信息。

此外，关于层集合的DPB 26可包括分别与层集合中所包括的至少一个层格式组相应的至少一个子DPB(未示出)。这里，获取器22确定是否能够从比特流获取指示与层集合中所包括的层格式组有关的子DPB的最大大小的信息，当确定能够获取指示关于子DPB的最大大小的信息时，获取器22还可从比特流获取指示关于层格式组的子DPB的最大大小的信息。例如，获取器22可获取指示是否能够获取指示子DPB的最大大小的信息的标志，并且可根据所述标志的值从比特流进一步获取指示子DPB的最大大小的信息。

此外，获取器22接收包括HEVC NAL单元的编码比特流，并从比特流中的每个NAL单元的RBSP获取VPS、序列参数集(SPS)、画面参数集(PPS)、条带和SEI消息。这里，获取器22可从RBSP的VPS扩展区获取指示DPB的最大大小的信息。

根据实施例的DPB 26临时存储由解码器24重建的图像以按照显示顺序输出重建图像，或临时存储针对帧间预测和层间预测的参考图像。然而，由于DPB 26具有物理有限大小，因此获取器22可获取如上所述的指示DPB的最大大小的信息，使得DPB 26的大小被有效地管理。此外，在这里，获取器22可根据层集合、时间子层或层格式组来获取DPB相关信息(例如，指示DPB的最大大小的信息)，使得即使在多层视频被解码时DPB 26仍被有效地管理。

图2b是根据实施例的多层视频解码方法的流程图。

在操作S21，多层视频解码设备20可从比特流获取指示与包括多个层的层集合有关的DPB的最大大小的信息。

此外，当层集合包括多个时间子层时，多层视频解码设备20可根据层集合中所包括的时间子层来获取指示DPB的最大大小的信息。

指示与在层集合中所包括的时间子层之中的第一索引的时间子层有关的DPB的最大大小的信息可指示这样的DPB的最大大小：该DPB的最大大小等于或大于与级别比第一索引更低的第二索引的时间子层有关的DPB的最大大小。

例如，时间子层可被定义为指示能够用于对当前画面进行编码或解码的画面的分层时间索引(Temporalid)的最高级别值(HighestTid)。具有特定时间索引的画面可被用作具有与所述特定时间索引相同的时间索引或比所述特定时间索引更高的时间索引的画面的参考画面。例如，具有时间索引1的画面可被用作具有时间索引1或大于1的时间索引2、3等的画面的参考画面。然而，具有时间索引1的画面不能被用作具有时间索引0的画面的参考画面。因此，与时间索引1为最大级别值的时间子层相比，时间索引2为最大级别值的时间子层可需要具有更大的大小的DPB。

此外，多层视频解码设备20可确定是否能够从比特流获取指示与层集合中所包括的层格式组有关的子DPB的最大大小的信息，当确定能够获取指示子DPB的最大大小的信息时，多层视频解码设备20可从比特流进一步获取指示关于层格式组的子DPB的最大大小的信息。

在操作S23，多层视频解码设备20可基于获取的指示DPB的最大大小的信息来确定关于层集合的DPB的大小。此外，多层视频解码设备20可根据时间子层来确定关于层集合的DPB的大小。此外，多层视频解码设备20可根据层集合中所包括的层格式组来确定子DPB的最大大小。另外，多层视频解码设备20可根据关于层集合中所包括的层格式组的时间子层来确定子DPB的最大大小。

在操作S25，多层视频解码设备20可将层集合的解码画面存储在具有确定的大小的DPB中。此外，多层视频解码设备20可将层格式组的解码画面存储在子DPB中。

图3a示出根据实施例的层间预测结构。

层间编码系统300包括基本层编码器310、增强层编码器360以及基本层编码器310与增强层编码器360之间的层间预测器350。基本层编码器310和增强层编码器360可被包括在图1的编码器12中。

基本层编码器310接收基本层图像序列，并根据图像对基本层图像序列进行编码。增强层编码器360接收增强层图像序列，并根据图像对增强层图像序列进行编码。将同时描述基本层编码器310和增强层编码器320的重复操作。

通过块划分器318或368，输入图像(低分辨率图像或高分辨率图像)被划分为最大编码单元、编码单元、预测单元或变换单元。为了对从块划分器318或368输出的编码单元进行编码，可根据编码单元的预测单元来执行帧内预测或帧间预测。预测切换器348或398可基于预测单元的预测模式是帧内预测模式还是帧间预测模式，使得通过参考从运动补偿器340或390输出的预重建的图像来执行帧间预测，或者使得通过使用在从帧内预测器345或395输出的当前输入图像中的当前预测单元的邻近预测单元来执行帧内预测。可经由帧间预测根据预测单元来产生残差信息。

预测单元与邻近图像之间的残差信息根据编码单元的预测单元被输入到变换/量化单元320或370。变换/量化单元320或370可基于编码单元的变换单元通过根据变换单元执行变换和量化来输出量化后的变换系数。

缩放/逆变换单元325或375可通过根据编码单元的变换单元再次对量化后的变换系数执行缩放和逆变换来产生空间域的残差信息。当预测切换器348或398被控制为指向帧间模式时，在残差信息与预重建的图像或邻近预测单元合并时，可产生包括当前预测单元的重建图像，并且可将重建图像存储在存储单元330或380中。根据接下来被编码的预测单元的预测模式，重建图像可被发送到帧内预测器345或395或者运动补偿器340或390。

详细地讲，在帧间模式下，环路滤波单元335或385可根据编码单元对存储在存储器330或380中的重建图像执行去块滤波和样点自适应偏移(SAO)滤波中的至少一个。可对包括在编码单元中的预测单元和变换单元中的至少一个以及编码单元执行去块滤波和SAO滤波中的至少一个。

去块滤波是用于减轻数据单元的块现象的滤波，SAO滤波是用于对根据数据编码和解码而转换的像素值进行补偿的滤波。根据预测单元，由环路滤波单元335或385滤波的数据可被传送到运动补偿器340或390。然后，为了对从块划分器318或368输出的随后的编码单元进行编码，可产生从运动补偿器340或390和块划分器318或368输出的当前重建图像与随后的编码单元之间的残差信息。

这样，可根据输入图像的编码单元重复上述编码操作。

此外，对于层间预测，增强层编码器360可参考存储在基本层编码器310的存储器330中的重建图像。基本层编码器310的编码控制器315可控制基本层编码器310的存储单元330以将基本层编码器310的重建图像发送到增强层编码器360。在层间预测器350中，层间滤波单元355可对从基本层编码器310的存储单元330输出的基本层重建图像执行去块滤波或SAO滤波。当基本层图像的分辨率与增强层图像的分辨率彼此不同时，层间预测器350可在将基本层重建图像发送到增强层编码器360之前对基本层重建图像进行上采样。当根据增强层编码器360的预测切换器398的控制执行层间预测时，可通过参考经由层间预测器350发送的基本层重建图像来对增强层图像执行层间预测。

为了对图像进行编码，可针对编码单元、预测单元和变换单元设置各种编码模式。例如，深度或划分信息(划分标志)可被设置为编码单元的编码模式。预测模式、分区类型、帧内方向信息或参考列表信息可被设置为预测单元的编码模式。变换深度或划分信息可被设置为变换单元的编码模式。

基本层编码器310可基于通过应用用于编码单元的各种深度、用于预测单元的各种预测模式、各种分区类型、各种帧内方向和各种参考列表以及用于变换单元的各种变换深度来执行编码的结果，确定具有最高编码效率的编码深度、预测模式、分区类型、帧内方向/参考列表和变换深度。由基本层编码器310确定的编码模式不限于此。

基本层编码器310的编码控制器315可控制每个组件，使得各种编码模式之一被适当地应用到组件。此外，为了增强层编码器360进行的层间编码，编码控制器315可控制增强层编码器360通过参考基本层编码器310的编码结果来确定编码模式或残差信息。

例如，增强层编码器360可将基本层编码器310的编码模式用作增强层图像的编码模式，或可通过参考基本层编码器310的编码模式来确定用于增强层图像的编码模式。基本层编码器310的编码控制器315可控制增强层编码器360的编码控制器365的控制信号来使用基本层编码器310的当前编码模式，以确定增强层编码器360的当前编码模式。

可与根据层间预测方法的图3的层间编码系统300相似地实现根据层间预测方法的层间解码系统。换句话说，多层视频的层间解码系统可接收基本层比特流和增强层比特流。层间解码系统的基本层解码器可通过对基本层比特流进行解码来重建基本层图像。层间解码系统的增强层解码器可通过使用基本层重建图像和解析的编码信息对增强层比特流进行解码来重建增强层图像。在下文中，将参照图3b详细地描述由根据层间预测方法的层间编码系统300和根据层间预测方法的层间解码系统(未示出)使用多层视频的实施例。

图3b示出根据实施例的多层视频。

为了在各种网络环境和各种终端中提供最佳服务，多层视频设备10可通过对具有各种空间分辨率、各种质量、各种帧率和不同视点的多层图像序列进行编码来输出可伸缩比特流。换句话说，多层视频编码设备10可通过根据各种可伸缩性类型对输入图像进行编码来产生并输出可伸缩视频比特流。可伸缩性包括时间、空间、质量和多视点可伸缩性及其组合。这样的可伸缩性可根据类型被分类。此外，在每种类型中，可伸缩性可被分类为程度标识符。

例如，可伸缩性具有与时间、空间、质量和多视点可伸缩性相同的可伸缩性类型。此外，可伸缩性可根据类型被分类为可伸缩性程度标识符。例如，当可伸缩性不同时，可伸缩性可具有不同的程度标识符。例如，高可伸缩性程度可针对可伸缩性类型被分配至高程度可伸缩性。

当比特流能够被划分为有效子流时，比特流是可伸缩的。空间可伸缩比特流包括各种分辨率的子流。为了对相同可伸缩性类型中的不同可伸缩性进行区分，可伸缩性程度被使用。可通过可伸缩性程度标识符来表示可伸缩性程度。

例如，空间可伸缩比特流可被划分为具有不同分辨率(诸如QVGA、VGA和WVGA)的子流。例如，可通过使用程度标识符来对具有不同分辨率的层进行区分。例如，QVGA子流可将0作为空间可伸缩性程度标识符值，VGA子流可将1作为空间可伸缩性程度标识符值，WVGA子流可将2作为空间可伸缩性程度标识符值。

时间可伸缩比特流包括具有各种帧率的子流。例如，时间可伸缩比特流可被划分为帧率为7.5Hz的子流、帧率为15Hz的子流、帧率为30Hz的子流和帧率为60Hz的子流。质量可伸缩比特流可根据粗粒度可伸缩性(CGS)方法、中等粒度可伸缩性(MGS)方法和细粒度可伸缩性(FGS)方法被划分为具有不同质量的子流。还可基于不同帧率根据不同程度来对时间可伸缩性进行区分，还可基于不同方法根据不同程度对质量可伸缩性进行区分。

多视点可伸缩比特流将不同视点的子流包括在一个比特流中。例如，在立体图像中，比特流包括左图像和右图像。此外，可伸缩比特流可包括与多视点图像相关的子流和与深度图的编码数据相关的子流。还可基于不同视点根据不同程度来对视点可伸缩性进行区分。

不同的可伸缩扩展类型可彼此组合。换句话说，可伸缩视频比特流可包括这样的子流：在所述子流中包括图像的多层的图像序列被编码，其中，在这些图像序列中，时间、空间、质量和多视点可伸缩性中的至少一个彼此不同。

图3b示出具有不同可伸缩扩展类型的图像序列31至33。第一层的图像序列31、第二层的图像序列32和第n层(n是整数)的图像序列33可以是分辨率、质量和视点中的至少一个彼此不同的图像序列。此外，第一层的图像序列31、第二层的图像序列32和第n层的图像序列33中的一个图像序列可以是基本层的图像序列，其它图像序列可以是增强层的图像序列。

例如，第一层的图像序列31可包括第一视点的图像，第二层的图像序列32可包括第二视点的图像，第n层的图像序列33可包括第n视点的图像。作为另一示例，第一层的图像序列31可以是基本层的左视点图像，第二层的图像序列32可以是基本层的右视点图像，第n层的图像序列33可以是增强层的右视点图像。然而，实施例不限于此，具有不同可伸缩扩展类型的图像序列31至33可以是具有不同图像属性的图像序列。

同时，不同层的图像序列可被分组为至少一个层集合，以便提高多层视频的编码/解码效率。

例如，第一层的图像序列31和第二层的图像序列32可被确定为第一层集合34，第一层的图像序列31、第二层32的图像序列32和第n层(n是整数)的图像序列33可被确定为第二层集合35。因此，需要第n层的图像序列33来重建高质量图像的解码设备可从第二层集合中所包括的层的比特流重建图像，能够仅重建低质量图像的解码设备可从第一层集合中所包括的层的比特流重建图像。

另外，通过根据层集合获取对图像帧进行解码所需要的信息，可有效地重建多层视频。

此外，如随后将参照图6b描述的，层集合中所包括的层图像序列可基于分辨率、比特深度或图像格式(诸如色彩格式)被再划分为特定格式组。此外，可根据特定格式组来确定子DPB。

图4示出根据实施例的包括多层视频的编码数据的NAL单元。

如上所述，比特流产生器14输出包括编码的多层视频数据和附加信息的NAL单元。

视频参数集(VPS)包括被应用于多层视频中所包括的多层图像序列42至44的信息。包括关于VPS的信息的NAL单元被称为VPS NAL单元41。

VPS NAL单元41包括被多层图像序列42至43所共享的共同语法元素、用于停止传输不必要信息的操作点的信息、以及在会话协商期间所需要的关于操作点的必要信息(诸如型(profile)和级(level))。具体地，根据实施例的VPS NAL单元41包括用于在多层视频中实现可伸缩性的与可伸缩性标识符相关的可伸缩性信息。可伸缩性信息是用于确定被应用于多层视频中所包括的多层图像序列42至43的可伸缩性的信息。

可伸缩性信息包括关于被应用于多层视频中所包括的多层图像序列42至43的可伸缩性类型和可伸缩性程度的信息。在根据本公开的第一实施例的编码方法和解码方法中，可直接从NAL单元头中所包括的分层标识符的值获取可伸缩性信息。分层标识符是用于对VPS中所包括的多个层进行区分的标识符。VPS可通过VPS扩展用信号传送每个层的分层标识符。VPS的每个层的分层标识符可通过被包括在VPS NAL单元中而被信号传送。例如，属于VPS的特定层的NAL单元的分层标识符可被包括在VPS NAL单元中。例如，可通过VPS扩展来用信号传送属于VPS的NAL单元的分层标识符。因此，在根据本公开的实施例的编码方法和解码方法中，可通过使用NAL单元的分层标识符值来获取关于属于VPS的NAL单元的层的可伸缩性信息。

图5a示出根据使用时间子层的编码和解码方法的多层预测结构。

可根据时间分层结构50来执行可伸缩视频编码方法。时间分层结构50包括分层B类型图像55至63的预测结构。在级别0的预测结构中，I类型图像51和54的帧间预测、P类型图像52和53的帧间预测被执行。在级别1的预测结构中，参考I类型图像51和54以及P类型图像52和53的B类型图像55至57的帧间预测被执行。在级别2的预测结构中，参考I类型图像51和54、P类型图像52和53以及级别1的B类型图像55至57的帧间预测被执行。

时间索引(“temporal_id”)是用于标识预测级别的数字，当每个级别的图像被输出时，帧率可增加。例如，当级别0的I类型图像51和54以及P类型图像52和53按照15Hz的帧率被解码并输出时，并且随后当级别1的B类型图像55至57被解码并输出时，帧率增加到30Hz，当级别2的B类型图像58至63被解码并输出时，帧率可增加到60Hz。

根据实施例，当时间分层结构50以可伸缩视频编码方法被实现时，级别0的图像可被编码为基本层图像，级别1的图像可被编码为第一增强层图像，级别2的图像可被编码为第二增强层图像。

因此，根据实施例的多层视频解码设备20不仅根据层集合确定DPB的大小，还基于时间层的最大级别来确定DPB的大小，从而有效地管理DPB的大小。例如，可针对具有最大级别为1的时间层的时间子层以及具有最大级别为2的时间层的时间子层中的每一个来确定DPB的最大大小。

在下文中，将参照图5b来描述根据时间子层确定DPB的大小的方法。

图5b是根据实施例的根据时间子层管理DPB的方法的流程图。

在操作S510，多层视频解码设备20可根据在包括多个层的层集合中所包括的时间子层从比特流获取指示DPB的最大大小的信息。

例如，多层视频解码设备20可根据层集合中所包括的时间子层来获取指示DPB的最大大小的信息。具有高级别的时间子层的DPB的最大大小可大于具有低级别的时间子层的DPB的最大大小。

在操作S520，多层视频解码设备20可基于获取的指示DPB的最大大小的信息，根据层集合中所包括的时间子层确定DPB的最大大小。

在操作S530，多层视频解码设备20可根据时间子层将解码画面存储在具有确定的大小的每个DPB中。

在操作S610，多层视频解码设备20根据包括多个层的层集合中所包括的时间子层从比特流获取指示DPB的最大大小的信息。例如，多层视频解码设备20可根据层集合中所包括的时间子层获取指示DPB的最大大小的信息。

在操作S620，多层视频解码设备20确定是否能够获取指示与层集合中所包括的层格式组相关的子DPB的最大大小的信息。例如，多层视频解码设备20可根据层集合中所包括的时间子层来获取指示关于层格式组的子DPB的大小信息是否存在的信息。

这里，格式组可以是通过根据分辨率、比特深度或图像格式(诸如彩色格式)对层集合中所包括的层图像序列进行再划分而获得的组。

例如，图6b示出确定层格式组的示例。参照图6b，在层集合601中所包括的层之中可存在具有相同分辨率、相同比特深度和相同色彩格式的层。因此，多层视频编码设备10可将具有相同格式的第一层和第二层确定为第一层格式组602，将第三层和第四层确定为第二层格式组603，以便有效管理DPB。之后，多层视频编码设备10可根据确定的层格式组来确定子DPB的最大大小。因此，关于层集合的DPB可包括多个子画面缓冲器。

同时，在图6b中，描述了基于层格式来确定层格式组，但是实施例不限于此，并且可根据不同标准对层格式组进行分组，使得针对层集合中所包括的层有效地配置子DPB。

返回参照图6a，当确定不能获取指示子DPB的最大大小的信息时，在操作S630，多层视频解码设备20基于获取的指示DPB的最大大小的信息，根据层集合中所包括的时间子层确定DPB的大小。此外，在操作S640，根据时间子层将解码画面存储在具有确定的大小的每个DPB中。

当确定能够获取指示子DPB的最大大小的信息时，在操作S650，可根据层集合中所包括的时间子层和层格式组来获取指示子DPB的最大大小的信息。

在操作S660，多层视频解码设备20根据关于层格式组的时间子层确定子DPB的大小。例如，可基于指示子DPB的最大大小的信息，根据层集合、时间子层和层格式组来确定子DPB的大小。

在操作S670，多层视频解码设备20根据格式组中的时间子层，将解码画面存储在具有确定的大小的子DPB中。

在图6a中，描述了在获取了指示关于层集合的DPB的最大大小的信息之后获取指示子DPB的最大大小的信息，但是实施例不限于此。

例如，代替图6a的操作610，多层视频解码设备20可从比特流获取指示在包括多个层的层集合中是否存在时间子层的信息。例如，可针对每个层集合获取sub_layer_flag_info_present_flag，即指示是否存在时间子层的信息。

因此，当关于子DPB的信息存在时，多层视频解码设备可获取指示可根据子DPB获取的最大大小的信息。在这种情况下，可省略获取指示关于整个层集合的DPB的最大大小的信息的操作。

图7a示出根据实施例的与用于对多层视频进行解码的缓冲器的大小相关的语法700的示例。

用于VPS扩展的语法vps_extension()701可包括用于确定关于层集合的DPB的最大大小的循环702和条件语句703。

首先，在循环702，多层视频解码设备20可基于指示层集合的数量的信息(numOutputLayerSets)根据层集合的索引i确定条件语句703。

在条件语句703中，可获取与指示包括在层(即，层集合中所包括的至少一个层之中的包括最多时间子层的层)中的时间子层的数量有关的信息(在下文中，被称为关于层集合的时间子层的最大数量的信息)是否存在有关的标志(vps_sub_layers_max_minus1_present_flag)。如果存在关于时间子层的最大数量的信息，则可获取关于具有第i索引的层集合的时间子层的最大数量的信息(max_sub_layers_output_layer_set_minus1[i])。可在图7b中的dpb_size()711中使用获取的max_sub_layers_output_layer_set_minus1[i]。

图7b示出根据实施例的与用于对多层视频进行解码的缓冲器的大小相关的语法710的另一示例。

参照图7b，用于确定DPB的大小的语法dpb_size()711可包括用于确定关于层集合的DPB的最大大小的条件语句712至716。

在条件语句712中，多层视频解码设备20可获取标志(vps_sub_layers_max_minus1_present_flag)，其中，该标志与关于层集合的时间子层的最大数量的信息是否存在有关。如果标志(vps_sub_layers_max_minus1_present_flag)为真，则条件语句713被执行。

在条件语句713中，多层视频解码设备20可根据基于指示层集合的数量的信息(NumOutputLayerSets)而确定的层集合的索引i，获取sub_layer_flag_info_present_flag[i]，即指示是否存在时间子层的信息。

在条件语句714中，基于从sub_layer_flag_info_present_flag[i]导出的max_sub_layers_output_layer_set_minus1[i]，根据时间子层的索引j来确定条件语句715至717。这里，max_sub_layers_output_layer_set_minus1[i]是关于具有第i索引的层集合的时间子层的最大数量的信息。换句话说，多层视频解码设备20不是将时间子层的索引j增大到形成多层图像的全部层中的时间子层的最大数量，而是可将时间子层的索引j仅增大到将被解码的层集合的时间子层的最大数量。例如，假设存在用于形成多层图像的五个层(第0层、第一层、第二层、第三层和第四层)，并且所述五个层分别包括1、2、3、4和10个时间子层。考虑第一层集合包括第0层、第一层和第三层并且第二层集合包括第0层、第三层和第四层，则当第一层集合被解码时，j可增大到3，当第二层集合被解码时，j可增大到10。这里，j可与能够在具有第i索引的层集合的时间子层中使用的时间索引(Temporalid)的最大级别值(HightestTid)相同。

在条件语句715中，当j大于0并且存在时间子层(sub_layer_flag_info_present_flag[i]＝1)时，可获取指示关于子DPB的信息是否存在的信息(sub_layer_dpb_info_present_flag[i][j])。

在条件语句716中，当sub_layer_dpb_info_present_flag[i][j]是1时，确定条件语句717的条件。

在条件语句717中，可基于根据层集合中所包括的子DPB的数量(NumSubDpbs[i])而确定的子DPB的索引k来获取指示子DPB的大小的信息(max_vps_dec_pic_buffering_minus1[i][j][k])。

因此，多层视频解码设备20可基于max_vps_dec_pic_buffering_minus1[i][j][k]，根据层集合i、时间子层j和层格式组k来确定子DPB的大小。当不能获取指示子DPB的最大大小的信息时，可获取指示根据层集合i和时间子层j的DPB的最大大小的信息。根据实施例的多层视频解码设备20还可获取关于时间子层排序的信息以及DPB相关信息，其中，DPB相关信息包括指示需要根据层集合i和时间子层j重新排列的图像帧的数量的重新排列帧数量信息(max_vps_num_reorder_pics[i][j])、以及用于确定最大延迟帧的最大延迟增加信息(max_vps_latency_increase_plus1[i][j])。

在语法元素718，当关于层集合的时间子层的最大数量的信息不存在时，多层视频解码设备20确定关于层集合的DPB的最大大小。在条件语句719中，存在关于层集合的时间子层的最大大小的信息。

在条件语句719中，当将时间子层的索引增大到在多层图像中所包括的多个层之中的包括最多时间子层的层中所包括的时间子层的数量的同时，多层视频解码设备20可根据时间子层的索引j获取指示子DPB的大小的信息。例如，如上所述，假设存在用于形成多层图像的五个层(第0层、第一层、第二层、第三层和第四层)，并且所述五个层分别包括1、2、3、4和10个时间子层。在这种情况下，考虑第一层集合包括第0层、第一层和第三层，第二层集合包括第0层、第三层和第四层，由于关于层集合的时间子层的最大数量的信息不存在，因此在不考虑将被解码的层集合而将索引j增达到10的同时，多层视频解码设备20根据层集合i、时间子层的索引j以及层格式组k来获取子DPB的大小。当不能获取指示子DPB的最大大小的信息时，可根据层集合i和时间子层j来获取指示DPB的最大大小的信息。

可在视频参数集视频可用性信息的语法中如下面的表1那样实现用信号传送根据实施例的关于DPB的大小的信息。

[表1]

同时，为了便于描述，图7a和图7b中描述了仅由多层视频解码设备20执行的操作，省略了多层视频编码设备10的操作，但是对于本领域普通技术人员明显的是，可在多层视频编码设备10中执行相应操作。

以上描述的由视频编码设备和视频解码设备执行的视频编码方法和视频解码方法可用于在层间视频编码设备和层间视频解码设备中对层间视频进行编码和解码。

如上所述，根据实施例的多层视频编码设备10和根据实施例的多层视频解码设备20将通过划分视频数据而获得的块划分为具有树结构的编码单元，并将编码单元、预测单元和变换单元用于对编码单元的层间预测或帧间预测。在下文中，将参照图8至图20描述根据实施例的基于树结构的编码单元和变换单元的视频编码方法和设备以及视频解码方法和设备。

在根据实施例的多层视频编码设备10和根据实施例的多层视频解码设备20中，如上所述，可将视频数据划分为具有树结构的编码单元，编码单元、预测单元和变换单元被用于对编码单元进行层间预测或帧间预测。在下文中，将参照图8至图20描述根据实施例的基于具有树结构的编码单元和变换单元的视频编码方法和设备以及视频解码方法和设备。

原则上，在针对多层视频的编码/解码期间，可分别地执行针对第一层图像的编码/解码处理和针对第二层图像的编码/解码处理。也就是说，当对多层视频执行层间预测时，单层视频的编码/解码结果互相参考，但是针对各个单层视频执行单独的编码/解码处理。

为了便于描述，由于对单层视频执行将参照图8至图20描述的基于树结构的编码单元的视频编码处理和视频解码处理，因此将描述帧间预测和运动补偿。然而，如参照图1a至图7所描述的，可执行基本视点图像和第二层图像之间的层间预测和补偿来对视频流进行编码/解码。

因此，为了使根据实施例的层间视频编码设备的编码器基于具有树结构的编码单元对多层视频进行解码，层间视频编码设备可包括与多层视频的层数一样多的图8的视频编码设备800以根据每个单层视频执行视频编码，从而控制每个视频编码设备800对分配的单层视频进行编码。此外，层间视频编码设备可通过使用每个视频编码设备800的各个单个视点的编码结果来执行视点间预测。因此，层间视频编码设备的编码器可产生包括根据层的编码结果的基本视点视频流和第二层视频流。

类似地，为了使用根据实施例的层间视频解码设备的解码器基于具有树结构的编码单元对多层视频进行解码，层间视频解码设备可包括与多层视频的层数一样多的图9的视频解码设备900，以便根据层针对接收到的第一层视频流和接收到的第二层视频流执行视频解码，从而控制每个视频解码设备900对分配的单层视频进行解码。此外，层间视频解码设备可通过使用每个视频解码设备900的各个单个层的解码结果来执行层间补偿。因此，层间视频解码设备的解码器可产生根据层重建的第一层图像和第二层图像。

图8示出根据本公开的实施例的基于树结构的编码单元的视频编码设备800的框图。

根据实施例的涉及基于根据树结构的编码单元的视频预测的视频编码设备800包括编码单元确定器820和输出单元830。在下文中，为了便于描述，根据实施例的涉及基于根据树结构的编码单元的视频编码的视频编码设备800将被简称为“视频编码设备800”。

编码单元确定器820可基于图像的当前画面的最大编码单元来划分当前画面，其中，最大编码单元是具有最大尺寸的编码单元。如果当前画面大于最大编码单元，则可将当前画面的图像数据划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128、256×256等的数据单元，其中，数据单元的形状是宽度和长度为2的若干次方的正方形。

根据实施例的编码单元可由最大尺寸和深度表征。深度表示编码单元从最大编码单元被空间划分的次数，并且随着深度加深，根据深度的较深层编码单元可从最大编码单元被划分到最小编码单元。最大编码单元的深度可以是最高深度，最小编码单元的深度可以是最低深度。由于随着最大编码单元的深度加深，与每个深度相应的编码单元的尺寸减小，因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。

如上所述，当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元，并且每个最大编码单元可包括根据深度被划分的较深层编码单元。由于根据深度对根据实施例的最大编码单元进行划分，因此可根据深度对包括在最大编码单元中的空间域的图像数据进行分层分类。

可预先确定编码单元的最大深度和最大尺寸，其中，所述最大深度和最大尺寸限制最大编码单元的高度和宽度被分层划分的总次数。

编码单元确定器820对通过根据深度对最大编码单元的区域进行划分而获得的至少一个划分区域进行编码，并且根据所述至少一个划分区域来确定用于输出最终编码的图像数据的深度。换句话说，编码单元确定器820通过根据当前画面的最大编码单元以根据深度的较深层编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定最终深度。将确定的编码深度和根据确定的编码深度编码的图像数据输出到输出单元830。

基于与等于或低于最大深度的至少一个深度相应的较深层编码单元，对最大编码单元中的图像数据进行编码，并且基于每个较深层编码单元将对图像数据进行编码的结果进行比较。在对较深层编码单元的编码误差进行比较之后，可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个最终深度。

随着编码单元根据深度而被分层地划分以及随着编码单元的数量增加，最大编码单元的尺寸被划分。另外，即使在一个最大编码单元中编码单元与同一深度相应，仍通过分别测量每个编码单元的图像数据的编码误差来确定是否将与同一深度相应的每个编码单元划分到更低深度。因此，即使当图像数据被包括在一个最大编码单元中时，编码误差仍可根据所述一个最大编码单元中的区域而不同，因此最终深度可根据图像数据中的区域而不同。因此，可在一个最大编码单元中确定一个或更多个最终深度，并且可根据至少一个最终深度的编码单元来对最大编码单元的图像数据进行划分。

因此，根据实施例的编码单元确定器820可确定包括在最大编码单元中的具有树结构的编码单元。根据实施例的“具有树结构的编码单元”包括最大编码单元中包括的所有较深层编码单元中的与确定为最终深度的深度相应的编码单元。可根据最大编码单元的同一区域中的深度来分层地确定最终深度的编码单元，并可在不同区域中独立地确定最终深度的编码单元。类似地，可独立于另一区域中的最终深度而确定当前区域中的最终深度。

根据实施例的最大深度是与从最大编码单元到最小编码单元的划分次数相关的索引。根据实施例的第一最大深度可表示从最大编码单元到最小编码单元的总划分次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如，当最大编码单元的深度是0时，对最大编码单元划分一次的编码单元的深度可被设置为1，对最大编码单元划分两次的编码单元的深度可被设置为2。这里，如果最小编码单元是最大编码单元被划分四次的编码单元，则存在深度0、1、2、3和4的深度等级，并因此第一最大深度可被设置为4，第二最大深度可被设置为5。

可根据最大编码单元执行预测编码和变换。根据最大编码单元，还基于根据等于最大深度的深度或小于最大深度的深度的较深层编码单元来执行预测编码和变换。

由于每当根据深度对最大编码单元进行划分时，较深层编码单元的数量增加，因此对随着深度加深而产生的所有较深层编码单元执行包括预测编码和变换的编码。为了便于描述，在最大编码单元中，将基于当前深度的编码单元来描述预测编码和变换。

根据实施例的视频编码设备800可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。

例如，视频编码设备800不仅可选择用于对图像数据进行编码的编码单元，还可选择不同于编码单元的数据单元，以便对编码单元中的图像数据执行预测编码。

为了在最大编码单元中执行预测编码，可基于根据实施例的与最终深度相应的编码单元(即，基于不再被划分到与更低深度相应的编码单元的编码单元)来执行预测编码。以下，不再被划分且成为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元而获得的分区可包括预测单元或通过对预测单元的高度和宽度中的至少一个进行划分而获得的数据单元。分区是编码单元的预测单元被划分的数据单元，并且预测单元可以是具有与编码单元相同的尺寸的分区。

例如，当2N×2N(其中，N是正整数)的编码单元不再被划分并且成为2N×2N的预测单元时，分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。根据实施例的分区模式的示例可包括通过对预测单元的高度或宽度进行对称地划分而获得的对称分区、通过对预测单元的高度或宽度进行非对称地划分(诸如，1：n或n:1)而获得的分区、通过对预测单元进行几何地划分而获得的分区、以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外，可仅对2N×2N的分区执行跳过模式。可对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。

根据实施例的视频编码设备800不仅可基于用于对图像数据进行编码的编码单元还可基于与编码单元不同的数据单元，来对编码单元中的图像数据执行变换。为了在编码单元中执行变换，可基于具有小于或等于编码单元的尺寸的变换单元来执行变换。例如，变换单元可包括用于帧内模式的数据单元和用于帧间模式的变换单元。

根据实施例，以与根据树结构对编码单元进行划分的方式类似的方式，编码单元中的变换单元可被递归地划分为更小尺寸的区域。因此，可基于根据变换深度的具有树结构的变换单元，对编码单元中的残差数据进行划分。

还可在根据实施例的变换单元中设置变换深度，其中，变换深度指示通过对编码单元的高度和宽度进行划分而达到变换单元的划分次数。例如，在2N×2N的当前编码单元中，当变换单元的尺寸是2N×2N时，变换深度可以是0，当变换单元的尺寸是N×N时，变换深度可以是1，当变换单元的尺寸是N/2×N/2时，变换深度可以是2。换句话说，可根据变换深度设置具有树结构的变换单元。

根据深度的划分信息不仅需要关于深度的信息，还需要与预测和变换相关的信息。因此，编码单元确定器820不仅确定具有最小编码误差的深度，还确定预测单元被划分成分区的分区模式、根据预测单元的预测模式以及用于变换的变换单元的尺寸。

随后将参照图9至图19详细描述根据实施例的最大编码单元中的根据树结构的编码单元以及确定预测单元/分区和变换单元的方法。

编码单元确定器820可通过使用基于拉格朗日乘数的率失真优化来测量根据深度的较深层编码单元的编码误差。

输出单元830在比特流中输出最大编码单元的图像数据和根据深度的信息，其中，所述最大编码单元的图像数据基于由编码单元确定器820确定的至少一个深度而被编码。

可通过对图像的残差数据进行编码来获得编码的图像数据。

根据深度的信息可包括深度信息、关于预测单元的分区模式信息、预测模式信息和变换单元划分信息。

可通过使用根据深度的划分信息来定义最终深度信息，其中，根据深度的划分信息指定是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是深度，则通过使用当前深度的编码单元来对当前编码单元进行编码，因此可将当前深度的划分信息定义为不将当前编码单元划分到更低深度。相反地，如果当前编码单元的当前深度不是深度，则必须对更低深度的编码单元执行编码，并因此可将当前深度的划分信息定义为将当前编码单元划分到更低深度的编码单元。

如果当前深度不是深度，则对被划分成更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中，因此对更低深度的每个编码单元重复执行编码，并因此可对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树结构的编码单元，并且针对深度的编码单元必须确定至少一条划分信息，因此可针对一个最大编码单元确定至少一条划分信息。另外，由于根据深度对数据进行分层划分，因此最大编码单元的数据的深度可根据位置而不同，并且因此可针对数据设置深度和编划分信息。

因此，根据实施例的输出单元830可将关于相应深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。

根据实施例的最小单元是通过将构成最低深度的最小编码单元划分为4份而获得的正方形数据单元。可选择地，根据实施例的最小单元可以是可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大正方形数据单元。

例如，通过输出单元830输出的编码信息可被分类为根据较深层编码单元的编码信息和根据预测单元的编码信息。根据较深层编码单元的编码信息可包括预测模式信息和分区尺寸信息。根据预测单元的编码信息可包括关于帧间模式期间的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息、以及关于帧内模式期间的插值方法的信息。

关于根据画面、条带或GOP定义的编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流的头、序列参数集或画面参数集中。

还可通过比特流的头、序列参数集或画面参数集来输出关于针对当前视频允许的变换单元的最大尺寸的信息、以及关于变换单元的最小尺寸的信息。输出单元830可对与预测相关的参考信息、预测信息和条带类型信息进行编码，并输出这些信息。

根据视频编码设备800的最简单实施例，较深层编码单元可以是通过将更高深度的编码单元(更高一层)的高度或宽度划分成两份而获得的编码单元。也就是说，当当前深度的编码单元的尺寸是2N×2N时，更低深度的编码单元的尺寸是N×N。另外，尺寸为2N×2N的当前编码单元可最多包括四个尺寸为N×N的更低深度编码单元。

因此，视频编码设备800可基于考虑当前画面的特征而确定的最大编码单元的尺寸和最大深度，通过针对每个最大编码单元确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外，由于可通过使用各种预测模式和变换中的任意一个对每个最大编码单元执行编码，因此可通过考虑各种图像尺寸的编码单元的特征来确定最优编码模式。

因此，如果以传统宏块对具有高分辨率或大数据量的图像进行编码，则每个画面的宏块的数量极度增加。因此，针对每个宏块产生的压缩信息的条数增加，因此难以发送压缩的信息，并且数据压缩效率降低。然而，通过使用根据实施例的视频编码设备，由于在考虑图像的尺寸的同时增加编码单元的最大尺寸，并同时在考虑图像的特征的同时调整编码单元，因此可提高图像压缩效率。

包括以上在图1a中描述的组件的层间视频编码设备可包括与层数相应的视频编码设备800，以便对多层视频的每个层中的单层图像进行编码。例如，第一层编码器可包括一个视频编码设备800，第二层编码器可包括与第二层的数量相应的视频编码设备800。

当视频编码设备800对第一层图像进行编码时，编码单元确定器820可根据每个最大编码单元针对树结构的编码单元中的每一个编码单元确定用于图像间预测的预测单元，并对每个预测单元执行图像间预测。

当视频编码设备800对第二层图像进行编码时，编码单元确定器820可根据每个最大编码单元确定树结构的预测单元和编码单元，并对每个预测单元执行帧间预测。

视频编码设备800可对亮度差进行编码，以便对第一层图像和第二层图像之间的亮度差进行补偿。然而，可根据编码单元的编码模式来确定是否执行亮度补偿。例如，可仅对尺寸为2N×2N的预测单元执行亮度补偿。

图9示出根据实施例的基于树结构的编码单元的视频解码设备900的框图。

根据实施例的涉及基于树结构的编码单元的视频预测的视频解码设备200包括接收器910、图像数据和编码信息提取器920以及图像数据解码器930。在下文中，为了便于描述，根据实施例的涉及基于树结构的编码单元的视频预测的视频解码设备900被称为“视频解码设备900”。

用于根据实施例的视频解码设备900的解码操作的各种术语(诸如编码单元、深度、预测单元、变换单元和各种类型的划分信息)的定义与参照图8和视频编码设备800描述的定义相同。

接收器910接收并解析编码视频的比特流。图像数据和编码信息提取器920从解析的比特流，针对每个编码单元提取编码的图像数据，并将提取的图像数据输出到图像数据解码器930，其中，编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器920可从关于当前画面的头、序列参数集或画面参数集提取关于当前画面的编码单元的最大尺寸的信息。

另外，图像数据和编码信息提取器920从解析的比特流，根据每个最大编码单元，提取关于具有树结构的编码单元的最终深度和划分信息。提取的编码深度和提取的划分信息被输出到图像数据解码器930。也就是说，比特流中的图像数据被划分为最大编码单元，使得图像数据解码器930针对每个最大编码单元对图像数据进行解码。

可针对一条或更多条深度信息设置根据每个最大编码单元的深度和划分信息，根据深度的划分信息可包括相应编码单元的分区模式信息、预测模式信息和变换单元的划分信息。另外，根据深度的划分信息可被提取，作为深度信息。

由图像数据和编码信息提取器920提取的根据每个最大编码单元的深度和划分信息是这样的深度和划分信息：该深度和划分信息被确定为在编码器(诸如，视频编码设备800)根据每个最大编码单元对每个根据深度的较深层编码单元重复地执行编码时产生最小编码误差。因此，视频解码设备900可通过根据产生最小编码误差的编码方法对数据进行解码来重建图像。

由于关于深度和编码模式的编码信息可被分配给相应的编码单元、预测单元和最小单元中的预定数据单元，因此图像数据和编码信息提取器920可根据预定数据单元，提取深度和划分信息。如果相应最大编码单元的深度和划分信息根据每个预定数据单元被记录，则可将具有相同深度和划分信息的预定数据单元推断为是包括在同一最大编码单元中的数据单元。

图像数据解码器930通过基于根据每个最大编码单元的深度和划分信息对每个最大编码单元中的图像数据进行解码来重建当前画面。也就是说，图像数据解码器930可基于读取的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区模式、预测模式和变换单元的信息，对编码的图像数据进行解码。解码处理可包括预测(包含帧内预测和运动补偿)和逆变换。

图像数据解码器930可基于关于根据深度的编码单元的预测单元的分区类型和预测模式的信息，根据每个编码单元的分区和预测模式，执行帧内预测或运动补偿。

此外，为了对每个最大编码单元进行逆变换，图像数据解码器930可针对每个编码单元读取关于根据树结构的变换单元的信息，以基于每个编码单元的变换单元来执行逆变换。由于/可通过使用根据深度的划分信息来确定当前最大编码单元的深度。如果划分信息指示图像数据在当前深度下不再被划分，则当前深度是深度。因此，图像数据解码器930可通过使用关于针对与当前深度相应的每个编码单元的预测单元的预测单元的分区模式、预测模式和变换单元的尺寸的信息，对当前最大编码单元的图像数据进行解码。

也就是说，可通过观察被分配给编码单元、预测单元和最小单元中的预定数据单元的编码信息集来收集包含包括相同划分信息的编码信息的数据单元，并且收集的数据单元可被认为是将由图像数据解码器930以相同编码模式进行解码的一个数据单元。这样，可通过获取关于针对每个编码单元的编码模式的信息来对当前编码单元进行解码。

包括以上在图2a中描述的组件的层间视频解码设备可包括与视点数相应的视频解码设备900，以便通过对接收到的第一层图像流和接收到的第二层图像流进行解码来重建第一层图像和第二层图像。

当接收到第一层图像流时，视频解码设备900的图像数据解码器930可将由提取器920从第一层图像流提取的第一层图像的样点划分为最大编码单元的根据树结构的编码单元。图像数据解码器930可基于用于图像间预测的预测单元对第一层图像的样点的根据树结构的编码单元中的每个编码单元执行运动补偿，并且可重建第一层图像。

当接收到第二层图像流时，视频解码设备900的图像数据解码器930可将由提取器920从第二层图像流提取的第二层图像的样点划分为最大编码单元的根据树结构的编码单元。图像数据解码器930可基于用于图像间预测的预测单元来对第二层图像的样点的每个编码单元执行运动补偿，并且可重建第二层图像。

提取器920可从比特流提取与亮度差相关的信息，以便对第一层图像与第二层图像之间的亮度差进行补偿。然而，可根据编码单元的编码模式来确定是否执行亮度补偿。例如，可仅对尺寸为2N×2N的预测单元执行亮度补偿。

因此，视频解码设备900可获取关于当对每个最大编码单元递归地执行编码时产生最小编码误差的至少一个编码单元的信息，并且可使用该信息来对当前画面进行解码。也就是说，可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元进行解码。

因此，即使图像具有高分辨率或具有过大的数据量，也可通过使用利用从编码终端接收到的最佳划分信息根据图像特征自适应地确定的编码单元的尺寸和编码模式，对图像进行有效地解码和重建。

图10示出根据实施例的编码单元的概念。

编码单元的尺寸可被表示为宽度×高度，并且可以是64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区，32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区，16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区，8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据1010中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为2。在视频数据1020中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为3。在视频数据1030中，分辨率为352×288，编码单元的最大尺寸为16，最大深度为1。图10中示出的最大深度表示从最大编码单元到最小编码单元的划分总次数。

如果分辨率高或数据量大，则编码单元的最大尺寸可以较大，从而不仅提高编码效率，而且准确地反映图像的特征。因此，具有比视频数据1030更高的分辨率的视频数据1010和1020的编码单元的最大尺寸可以是64。

由于视频数据1010的最大深度是2，因此由于通过对最大编码单元划分两次，深度加深至两层，因此视频数据1010的编码单元1015可包括长轴尺寸为64的最大编码单元和长轴尺寸为32和16的编码单元。另一方面，由于视频数据1030的最大深度是1，因此由于通过对最大编码单元划分一次，深度加深至一层，因此视频数据1030的编码单元1035可包括长轴尺寸为16的最大编码单元和长轴尺寸为8的编码单元。

由于视频数据1020的最大深度是3，因此由于通过对最大编码单元划分三次，深度加深至3层，因此视频数据1020的编码单元1025可包括长轴尺寸为64的最大编码单元和长轴尺寸为32、16和8的编码单元。随着深度加深，可提高关于详细信息的表示能力。

图11示出根据实施例的基于编码单元的图像编码器1100的框图。

根据实施例的图像编码器1100执行在视频编码设备800的画面编码器1520中对图像数据进行编码所必需的操作。也就是说，帧内预测器1120在当前图像1105中根据预测单元对帧内模式下的编码单元执行帧内预测，帧间预测器1115根据预测单元通过使用当前图像1105和从重建画面缓冲器1110获取的参考图像对帧间模式下的编码单元执行帧间预测。可将当前图像1105划分为最大编码单元，然后可顺序地对最大编码单元进行编码。对此，可对从最大编码单元划分出的树结构的编码单元执行编码。

通过从关于当前图像1105的编码的编码单元的数据中去除从帧内预测器1120或帧间预测器1115输出的关于每个模式的编码单元的预测数据来产生残差数据，残差数据经由变换器1125和量化器1130根据变换单元被输出为量化的变换系数。量化的变换系数经由反量化器1145和逆变换器1150被重建为空间域中的残差数据。重建后的空间中的残差数据与从帧内预测器1120或帧间预测器1115输出的每个模式的编码单元的预测数据相加，并因此被重建为当前图像1105的编码单元的空间域中的数据。重建后的空间域中的数据经由去块器1155和SAO执行器1160被产生为重建图像。重建图像被存储在重建画面缓冲器1110中。存储在重建画面缓冲器1110中的重建图像可被用作用于另一图像的帧间预测的参考图像。由变换器1125和量化器1130量化的变换系数可经由熵编码器1135被输出为比特流1140。

为了将图像编码器1100应用于视频编码设备800中，图像编码器1100的所有元件(即，帧间预测器1115、帧内预测器1120、变换器1125、量化器1130、熵编码器1135、反量化器1145、逆变换器1150、去块器1155和SAO执行器1160)根据每个最大编码单元基于具有树结构的编码单元中的每个编码单元执行操作。

具体地，帧内预测器1120和帧间预测器1115可通过考虑当前最大编码单元的最大尺寸和最大深度，确定具有树结构的编码单元中的每个编码单元的分区模式和预测模式，变换器1125可确定是否在具有树结构的编码单元之中的每个编码单元中划分具有四叉树结构的变换单元。

图12示出根据实施例的基于编码单元的图像解码器1200的框图。

熵解码器1215从比特流1205解析目标解码的编码图像数据和用于解码所需的编码信息。编码图像数据是量化的变换系数，并且反量化器1220和逆变换器1225从量化的变换系数重建残差数据。

帧内预测器1240根据每个预测单元对帧内模式下的编码单元执行帧内预测。帧间预测器1235通过使用从重建画面缓冲器1230获取的参考图像针对每个预测单元对当前图像中的帧间模式下的编码单元执行帧间预测。

经过帧内预测器1240或帧间预测器1235的关于每个模式的编码单元的预测数据和残差数据被求和，因此可重建当前图像1105的关于编码单元的空间域中的数据，重建的空间域中的数据可经由去块器1245和SAO执行器1250被输出为重建图像1260。存储在重建画面缓冲器1230中的重建图像可被输出为参考图像。

为了在视频解码设备900的画面解码器930中对图像数据进行解码，可执行图像解码器1200的熵解码器1215之后的操作。

为了将图像解码器1200应用于根据实施例的视频解码设备900中，图像解码器1200的所有元件(即，熵解码器1215、反量化器1220、逆变换器1225、帧内预测器1240、帧间预测器1235、去块器1245和SAO执行器1250)可针对每个最大编码单元基于具有树结构的编码单元执行操作。

具体地，帧内预测器1240和帧间预测器1235可确定用于具有树结构的编码单元中的每个编码单元的分区模式和预测模式，逆变换器1225可针对每个编码单元确定是否根据四叉树结构划分变换单元。

图10的编码操作和图11的解码操作分别描述了在单个层中的视频流编码操作和视频流解码操作中的每一个。因此，如果图1a的层间视频编码设备10对两个或更多个层的视频流进行编码，则可针对每个层提供图像编码器1100。类似地，如果图2a的层间解码设备20对两个或更多个层的视频流进行解码，则可针对每个层提供图像解码器1200。

图13示出根据实施例的根据深度的较深层编码单元和分区。

视频编码设备800和视频解码设备900使用分层编码单元以考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度，或可根据用户需求不同地设置编码单元的最大高度、最大宽度和最大深度。可根据编码单元的预定最大尺寸来确定根据深度的较深层编码单元的尺寸。

在根据实施例的编码单元的分层结构1300中，编码单元的最大高度和最大宽度均是64，最大深度是3。在此情况下，最大深度表示编码单元从最大编码单元到最小编码单元被划分的总次数。由于深度沿着编码单元的分层结构1300的垂直轴加深，因此较深层编码单元的高度和宽度均被划分。另外，预测单元和分区沿着编码单元的分层结构1300的水平轴被示出，其中，所述预测单元和分区是对每个较深层编码单元进行预测编码的基础。

也就是说，在编码单元的分层结构1300中，编码单元1310是最大编码单元，其中，深度为0，尺寸(即，高度乘宽度)为64×64。深度沿着垂直轴加深，存在尺寸为32×32和深度为1的编码单元1320、尺寸为16×16和深度为2的编码单元1330、尺寸为8×8和深度为3的编码单元1340。尺寸为8×8和深度为3的编码单元1340是最小编码单元。

编码单元的预测单元和分区根据每个深度沿着水平轴被排列。换句话说，如果尺寸为64×64和深度为0的编码单元1310是预测单元，则可将预测单元划分成包括在尺寸为64×64的编码单元1310中的分区，即，尺寸为64×64的分区1310、尺寸为64×32的分区1312、尺寸为32×64的分区1314或尺寸为32×32的分区1316。

相同地，可将尺寸为32×32和深度为1的编码单元1320的预测单元划分成包括在尺寸为32×32的编码单元1320中的分区，即，尺寸为32×32的分区1320、尺寸为32×16的分区1322、尺寸为16×32的分区1324和尺寸为16×16的分区1326。

相同地，可将尺寸为16×16和深度为2的编码单元1330的预测单元划分成包括在尺寸为16×16的编码单元1330中的分区，即，包括在编码单元1330中的尺寸为16×16的分区1330、尺寸为16×8的分区1332、尺寸为8×16的分区1334和尺寸为8×8的分区1336。

相同地，可将尺寸为8×8和深度为3的编码单元1340的预测单元划分成包括在尺寸为8×8的编码单元1340中的分区，即，包括在编码单元1340中的尺寸为8×8的分区1340、尺寸为8×4的分区1342、尺寸为4×8的分区1344和尺寸为4×4的分区1346。

为了确定最大编码单元1310的深度，视频编码设备800的编码单元确定器820必须对包括在最大编码单元1310中的分别与多个深度相应的多个编码单元执行编码。

随着深度加深，包括具有相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如，需要四个与深度2相应的编码单元来覆盖包括在与深度1相应的一个编码单元中的数据。因此，为了根据深度比较相同数据的编码结果，与深度1相应的编码单元和四个与深度2相应的编码单元均被编码。

为了根据多个深度中的每个深度执行编码，可沿着编码单元的分层结构1300的水平轴，通过对根据深度的编码单元的每个预测单元执行编码，来选择作为相应深度的代表性编码误差的最小编码误差。可选地，随着深度沿着编码单元的分层结构1300的垂直轴加深，可通过针对每个深度执行编码来比较根据深度的代表性编码误差，以搜索最小编码误差。在最大编码单元1310中的产生最小编码误差的深度和分区可被选为最大编码单元1310的深度和分区模式。

图14示出根据实施例的在编码单元和变换单元之间的关系。

视频编码设备800或视频解码设备900针对每个最大编码单元，根据具有小于或等于最大编码单元的尺寸的编码单元，对图像进行编码或解码。可基于不大于相应编码单元的数据单元，来选择用于在编码期间进行变换的变换单元的尺寸。

例如，在视频编码设备800或视频解码设备900中，当编码单元1410的尺寸是64×64时，可通过使用尺寸为32×32的变换单元1420来执行变换。

此外，可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的变换单元中的每一个执行变换，来对尺寸为64×64的编码单元1410的数据进行编码，然后可选择针对原始图像具有最小编码误差的变换单元。

图15示出根据实施例的多条编码信息。

视频编码设备800的输出单元830可对与深度相应的每个编码单元的分区模式信息1500、预测模式信息1510以及变换单元尺寸信息1520进行编码，并将分区模式信息1500、预测模式信息1510以及变换单元尺寸信息1520作为划分信息来发送。

分区模式信息1500指示关于通过划分当前编码单元的预测单元而获得的分区的形状的信息，其中，分区是用于对当前编码单元进行预测编码的数据单元。例如，可将尺寸为2N×2N的当前编码单元CU_0划分成以下分区中的任意一个：尺寸为2N×2N的分区1502、尺寸为2N×N的分区1504、尺寸为N×2N的分区1506和尺寸为N×N的分区1508。这里，关于当前编码单元的分区模式信息1500被设置为指示以下分区之一：尺寸为2N×N的分区1504、尺寸为N×2N的分区1506和尺寸为N×N的分区1508。

预测模式信息1510指示每个分区的预测模式。例如，预测模式信息1510可指示对由分区模式信息1500指示的分区执行的预测编码的模式，即，帧内模式1512、帧间模式1514或跳过模式1516。

变换单元尺寸信息1520指示当对当前编码单元执行变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元1522、第二帧内变换单元1524、第一帧间变换单元1526或第二帧间变换单元1528。

视频解码设备900的图像数据和编码信息提取器1610可根据每个较深层编码单元，提取并使用用于解码的分区模式信息1500、预测模式信息1510和变换单元尺寸信息1520。

图16示出根据实施例的根据深度的较深层编码单元。

划分信息可用来表示深度的改变。划分信息指示当前深度的编码单元是否被划分成更低深度的编码单元。

用于对深度为0和尺寸为2N_0×2N_0的编码单元1600进行预测编码的预测单元1610可包括以下分区模式的分区：尺寸为2N_0×2N_0的分区模式1612、尺寸为2N_0×N_0的分区模式1614、尺寸为N_0×2N_0的分区模式1616和尺寸为N_0×N_0的分区模式1618。仅示出了通过对称地划分预测单元而获得的分区模式1612、1614、1616和1618，但如上所述，分区模式不限于此，并且分区模式可包括非对称分区、具有预定形状的分区和具有几何形状的分区。

根据每种分区模式，对尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区重复地执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为2N_0×2N_0的分区执行跳过模式下的预测编码。

如果在尺寸为2N_0×2N_0、2N_0×N_0和N_0×2N_0的分区模式1612、1614和1616中的一个分区模式中编码误差最小，则可不将预测单元1610划分到更低深度。

如果在尺寸为N_0×N_0的分区模式1618中编码误差最小，则深度从0改变到1并执行划分(操作1620)，并对深度为2和尺寸为N_0×N_0的分区模式的编码单元1630重复地执行编码以便搜索最小编码误差。

用于对深度为1和尺寸为2N_1×2N_1(＝N_0×N_0)的编码单元1630进行预测编码的预测单元1640可包括以下分区模式：尺寸为2N_1×2N_1的分区模式1642、尺寸为2N_1×N_1的分区模式1644、尺寸为N_1×2N_1的分区模式1646以及尺寸为N_1×N_1的分区模式1648。

如果在尺寸为N_1×N_1的分区模式1648中编码误差最小，则深度从1改变到2并执行划分(在操作1650)，并对深度为2且尺寸为N_2×N_2的编码单元1660重复执行编码以便搜索最小编码误差。

当最大深度是d时，根据深度的较深层编码单元可被设置直到深度与d-1相应时，并且划分信息可被设置直到深度与d-2相应时。换句话说，当编码被执行直到在与d-2的深度相应的编码单元被划分之后深度是d-1(在操作1670)时，用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元1680进行预测编码的预测单元1690可包括以下分区模式的分区：尺寸为2N_(d-1)×2N_(d-1)的分区模式1692、尺寸为2N_(d-1)×N_(d-1)的分区模式1694、尺寸为N_(d-1)×2N_(d-1)的分区模式1696和尺寸为N_(d-1)×N_(d-1)的分区模式1698。

可对多个分区模式之中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区重复地执行预测编码，以便搜索具有最小编码误差的分区模式。

即使尺寸为N_(d-1)×N_(d-1)的分区类型1698具有最小编码误差时，由于最大深度是d，因此深度为d-1的编码单元CU_(d-1)也不再被划分到更低深度，构成当前最大编码单元1600的编码单元的深度被确定为d-1，并且当前最大编码单元1600的分区模式可被确定为N_(d-1)×N_(d-1)。此外，由于最大深度是d，因此不设置用于与深度d-1相应的编码单元1652的划分信息。

数据单元1699可以是用于当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过将具有最低深度的最小编码单元划分成4份而获得的正方形数据单元。通过重复地执行编码，根据实施例的视频编码设备800可通过比较根据编码单元1600的深度的编码误差来选择具有最小编码误差的深度以确定深度，并将相应分区类型和预测模式设置为该深度的编码模式。

这样，在所有深度0、1、…、d-1、d中对根据深度的最小编码误差进行比较，并且具有最小编码误差的深度可被确定为深度。深度、预测单元的分区模式和预测模式可作为划分信息被编码并发送。另外，由于编码单元必须从0的深度被划分到深度，因此仅该深度的划分信息设置为“0”，并且将除了该深度以外的深度的划分信息设置为“1”。

根据实施例的视频解码设备900的图像数据和编码信息提取器920可提取并使用关于编码单元1600的深度和预测单元信息，来对编码单元1612进行解码。根据实施例的视频解码设备900可通过使用根据深度的划分信息，将划分信息为“0”的深度确定为深度，并且可使用例如关于相应深度的划分信息来进行解码。

图17、图18和图19示出根据实施例的在编码单元、预测单元和变换单元之间的关系。

编码单元1710是最大编码单元中的根据由视频编码设备800确定的深度的较深层编码单元。预测单元1760是根据深度的每个编码单元1710的预测单元的分区，变换单元1770是根据深度的每个编码单元的变换单元。

当在较深层编码单元1710中最大编码单元的深度是0时，编码单元1712和1754的深度是1，编码单元1714、1716、1718、1728、1750和1752的深度是2，编码单元1720、1722、1724、1726、1730、1732和1748的深度是3，编码单元1740、1742、1744和1746的深度是4。

可通过划分编码单元来获得在预测单元1760中的一些分区1714、1716、1722、1732、1748、1750、1752和1754。也就是说，分区1714、1722、1750和1754是尺寸为2N×N的分区模式，分区1716、1748和1752是尺寸为N×2N的分区模式，分区1732是尺寸为N×N的分区模式。较深层编码单元1710的预测单元和分区小于或等于每个编码单元。

按照小于编码单元1752的数据单元中的变换单元1770，对编码单元1752的图像数据执行变换或逆变换。另外，在尺寸和形状方面，变换单元1770中的编码单元1714、1716、1722、1732、1748、1750、1752和1754是不同于预测单元1760中的编码单元1714、1716、1722、1732、1748、1750、1752和1754的数据单元。也就是说，根据实施例的视频编码设备800和视频解码设备900可对同一编码单元中的单个数据单元执行帧内预测/运动估计/运动补偿/和变换/逆变换。

因此，对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码来确定最优编码单元，从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、分区模式信息、预测模式信息和变换单元尺寸信息。下面的表2示出可由根据实施例的视频编码设备800和视频解码设备900设置的编码信息。

[表2]

根据实施例的视频编码设备800的输出单元830可输出关于具有树结构的编码单元的编码信息，根据实施例的视频解码设备900的图像数据和编码信息提取器920可从接收到的比特流提取关于具有树结构的编码单元的编码信息。

划分信息指定是否将当前编码单元划分成更低深度的编码单元。如果当前深度d的划分信息是0，则当前编码单元不再被划分成更低深度的深度是深度，从而可针对该深度来定义分区模式信息、预测模式信息和变换单元尺寸信息。如果当前编码单元根据划分信息被进一步划分，则必须对更低深度的四个划分编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一种。可在所有分区模式中定义帧内模式和帧间模式，仅在尺寸为2N×2N的分区模式中定义跳过模式。

分区模式信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区模式，以及通过非对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的非对称分区模式。可通过按1:3和3:1来划分预测单元的高度来分别获得尺寸为2N×nU和2N×nD的非对称分区模式，可通过按1:3和3:1来划分预测单元的宽度来分别获得尺寸为nL×2N和nR×2N的非对称分区模式。

可将变换单元的尺寸设置成帧内模式下的两种类型和帧间模式下的两种类型。也就是说，如果变换单元的划分信息是0，则变换单元的尺寸可以是2N×2N，即当前编码单元的尺寸。如果变换单元的划分信息是1，则可通过对当前编码单元进行划分来获得变换单元。另外，如果尺寸为2N×2N的当前编码单元的分区模式是对称分区模式，则变换单元的尺寸可以是N×N，如果当前编码单元的分区模式是非对称分区模式，则变换单元的尺寸可以是N/2×N/2。

根据实施例的关于具有树结构的编码单元的编码信息可被分配给与深度相应的编码单元、预测单元和最小单元中的至少一个。与深度相应的编码单元可包括包含相同编码信息的预测单元和最小单元中的至少一个。

因此，通过比较邻近数据单元的编码信息来确定邻近数据单元是否被包括在与深度相应的同一编码单元中。另外，通过使用数据单元的编码信息来确定与深度相应的相应编码单元，并因此可推断出最大编码单元中的深度的分布。

因此，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则可直接参考并使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。

在另一实施例中，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则可通过使用数据单元的编码信息来搜索与当前编码单元邻近的数据单元，并可参考搜索到的邻近编码单元以对当前编码单元进行预测。

最大编码单元2000包括多个深度的编码单元2002、2004、2006、2012、2014、2016和2018。这里，由于编码单元2018是深度的编码单元，因此划分信息可被设置成0。可将尺寸为2N×2N的编码单元2018的分区模式信息设置成多个分区模式中的一种，其中，所述多个分区模式包括2N×2N 2022、2N×N 2024、N×2N 2026、N×N 2028、2N×nU 2032、2N×nD2034、nL×2N 2036和nR×2N 2038。

变换单元划分信息(TU尺寸标志)是一种类型的变换索引，与变换索引相应的变换单元的尺寸可根据编码单元的预测单元类型或分区模式而改变。

例如，当分区模式信息被设置为对称分区模式2N×2N 2022、2N×N 2024、N×2N2026和N×N 2028中的一种时，如果变换单元划分信息是0，则设置尺寸为2N×2N的变换单元2042，如果变换单元划分信息是1，则可设置尺寸为N×N的变换单元2044。

当分区模式信息被设置成非对称分区模式2N×nU 2032、2N×nD 2034、nL×2N2036和nR×2N 2038中的一种时，如果变换单元划分信息(TU尺寸标志)是0，则可设置尺寸为2N×2N的变换单元2052，如果变换单元划分信息是1，则可设置尺寸为N/2×N/2的变换单元2054。

以上参照图19描述的变换单元划分信息(TU尺寸标志)是具有值0或1的标志，但是根据实施例的变换单元划分信息不限于具有1比特的标志，并且变换单元可在变换单元划分信息根据设置按照0、1、2、3…等的方式增加时被分层划分。变换单元划分信息可以是变换索引的示例。

在这种情况下，可通过使用根据实施例的变换单元划分信息以及变换单元的最大尺寸和变换单元的最小尺寸来表示实际上已使用的变换单元的尺寸。根据实施例的视频编码设备800可对最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息进行编码的结果可被插入到SPS。根据实施例的视频解码设备900可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息来对视频进行解码。

例如，(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是32×32，则(a-1)当TU尺寸标志为0时，变换单元的尺寸可以是32×32，(a-2)当TU尺寸标志为1时，变换单元的尺寸可以是16×16，(a-3)当TU尺寸标志为2时，变换单元的尺寸可以是8×8。

作为另一示例，(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32，则(b-1)当TU尺寸标志为0时，变换单元的尺寸可以是32×32。这里，由于变换单元的尺寸不能够小于32×32，因此TU尺寸标志不能够被设置为除了0以外的值。

作为另一示例，(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标志为1，则TU尺寸标志可以是0或1。这里，TU尺寸标志不能够被设置为除了0或1以外的值。

因此，如果定义最大TU尺寸标志为“MaxTransformSizeIndex”，最小变换单元尺寸为“MinTransformSize”，当TU尺寸标志为0时的变换单元尺寸为“RootTuSize”，则可通过等式(1)来定义可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”：

CurrMinTuSize＝max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex)) …(1)

与可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”相比，当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可指示可在系统中选择的最大变换单元尺寸。也就是说，在等式(1)中，“RootTuSize/(2^MaxTransformSizeIndex)”指示当TU尺寸标志为0时，变换单元尺寸“RootTuSize”被划分了与最大TU尺寸标志相应的次数时的变换单元尺寸，“MinTransformSize”指示最小变换尺寸。因此，“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”中较小的值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。

根据实施例，最大变换单元尺寸RootTuSize可根据预测模式的类型而改变。

例如，如果当前预测模式是帧间模式，则可通过使用以下的等式(2)来确定“RootTuSize”。在等式(2)中，“MaxTransformSize”指示最大变换单元尺寸，“PUSize”指示当前预测单元尺寸。

RootTuSize＝min(MaxTransformSize,PUSize)……(2)

也就是说，如果当前预测模式是帧间模式，则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸中较小的值。

如果当前分区单元的预测模式是帧内模式，则可通过使用以下的等式(3)来确定“RootTuSize”。在等式(3)中，“PartitionSize”指示当前分区单元的尺寸：

RootTuSize＝min(MaxTransformSize,PartitionSize)……(3)

也就是说，如果当前预测模式是帧内模式，则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸之中较小的值。

然而，根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅是实施例，并且用于确定当前最大变换单元尺寸的因素不限于此。

根据基于以上参照图8至图20描述的树结构的编码单元的视频编码方法，空间域的图像数据可在树结构的每个编码单元中被编码，根据基于树结构的编码单元的视频解码方法，按照对每个最大编码单元执行解码的方式来重建空间域的图像数据，使得由画面和画面序列形成的视频可被重建。重建的视频可由再现设备来再现，可存储在存储介质中，或可通过网络来发送。

一个或更多个实施例可被编写为计算机程序，并且可以以通过使用计算机可读记录介质执行程序的通用数字计算机来实现。计算机可读记录介质的示例包括磁存储介质(例如，ROM、软盘、硬盘等)和光学记录介质(例如，CD-ROM或DVD)等。

为了便于描述，参照图1a至图20描述的层间视频编码方法和/或视频编码方法将被统称为“视频编码方法”。此外参照图1a至图20描述的层间视频解码方法和/或视频解码方法将被统称为“视频解码方法”。

此外，包括参照图1a至图20描述的包括视频编码设备、视频编码设备800或图像编码器1100的视频编码设备将被统称为“视频编码设备”。此外，包括参照图1a至图20描述的层间视频解码设备、视频解码设备900或图像解码器1200的视频解码设备将被统称为“视频解码设备”。

现在将详细描述根据实施例的存储程序的计算机可读记录介质(例如，盘26000)。

图21示出根据实施例的存储程序的盘26000的物理结构的示图。作为存储介质的盘26000可以是硬盘驱动器、致密盘只读存储器(CD-ROM)盘、蓝光盘或数字多功能盘(DVD)。盘26000包括多个同心磁道Tr，每个同心磁道Tr沿盘26000的圆周方向被划分成特定数量的扇区Se。在盘26000的特定区域中，可分配并存储执行以上所描述的量化参数确定方法、视频编码方法和视频解码方法的程序。

现在将参照图22来描述使用存储用于执行如上所述的视频编码方法和视频解码方法的程序的存储介质来实现的计算机系统。

图22示出通过使用盘26000来记录并读取程序的盘驱动器26800的示图。计算机系统26700可经由盘驱动器26800将执行从根据实施例的视频编码方法和视频解码方法中选择的至少一个的程序存储在盘26000中。为了在计算机系统26700中运行存储在盘26000中的程序，可通过使用盘驱动器26800从盘26000读取程序并将程序发送到计算机系统26700。

执行根据实施例的视频编码方法和视频解码方法中的至少一个的程序不仅可被存储在图21或图22中示出的盘26000中，还可被存储在存储卡、ROM卡带或固态驱动器(SSD)中。

以下将描述应用以上所描述的视频编码方法和视频解码方法的系统。

图23示出用于提供内容分发服务的内容供应系统11000的整体结构的示图。将通信系统的服务区域划分成预定尺寸的小区，并将无线基站11700、11800、11900和12000分别安装在这些小区中。

内容供应系统11000包括多个独立装置。例如，诸如计算机12100、个人数字助理(PDA)12200、视频相机12300和移动电话12500的多个独立装置经由互联网服务提供商11200、通信网络11400和无线基站11700、11800、11900和12000连接到互联网11100。

然而，内容供应系统11000不限于如图23中所示，并且装置可选择性地被连接到内容供应系统11000。多个独立装置可不经由无线基站11700、11800、11900和12000而直接连接到通信网络11400。

视频相机12300是能够捕捉视频图像的成像装置，例如，数字视频相机。移动电话12500可利用各种协议(例如，个人数字通信(PDC)、码分多址(CDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)和个人手持电话系统(PHS))中的至少一种通信方法。

视频相机12300可经由无线基站11900和通信网络11400连接到流服务器11300。流服务器11300允许经由视频相机12300从用户接收到的内容经由实时广播被流传输。可通过视频相机12300或流服务器11300来对从视频相机12300接收到的内容进行编码。通过视频相机12300捕捉到的视频数据可经由计算机12100被发送到流服务器11300。

通过相机12600捕捉到的视频数据也可经由计算机12100被发送到流服务器11300。与数字相机类似，相机12600是能够捕捉静止图像和视频图像两者的成像装置。可使用相机12600或计算机12100对通过相机12600捕捉到的视频数据进行编码。可将对视频执行编码和解码的软件存储在可由计算机12100访问的计算机可读记录介质(例如，CD-ROM盘、软盘、硬盘驱动器、SSD或存储卡)中。

如果视频数据通过内置在移动电话12500中的相机被捕捉到，则可从移动电话12500接收视频数据。

还可通过安装在视频相机12300、移动电话12500或相机12600中的大规模集成电路(LSI)系统来对视频数据进行编码。

内容供应系统11000可对由用户使用视频相机12300、相机12600、移动电话12500或另一成像装置所记录的内容数据(例如，在音乐会期间记录的内容)进行编码，并将编码后的内容数据发送到流服务器11300。流服务器11300可将编码后的内容数据以流传输内容的类型发送到请求内容数据的其它客户端。

客户端是能够对编码后的内容数据进行解码的装置，例如，计算机12100、PDA12200、视频相机12300或移动电话12500。因此，内容供应系统11000允许客户端接收并再现编码后的内容数据。此外，内容供应系统11000允许客户端实时接收编码后的内容数据并对编码后的内容数据进行解码和再现，从而能够进行个人广播。

包括在内容供应系统11000中的多个独立装置的编码操作和解码操作可类似于根据实施例的视频编码设备和视频解码设备的编码操作和解码操作。

现在将参照图24和图25详细地描述包括在根据实施例的内容供应系统11000中的移动电话12500。

图24示出根据实施例的应用视频编码方法和视频解码方法的移动电话12500的外部结构。移动电话12500可以是智能电话，所述智能电话的功能不受限，并且所述智能电话的大多数功能可被改变或扩展。

移动电话12500包括可与无线基站12000交换射频(RF)信号的内部天线12510，并包括用于显示由相机12530捕捉到的图像或经由天线12510接收到的并被解码的图像的显示屏12520(例如，液晶显示器(LCD)或有机发光二极管(OLED)屏幕)。移动电话12500包括包含有控制按钮和触摸面板的操作面板12540。如果显示屏12520是触摸屏，则操作面板12540还包括显示屏12520的触摸感测面板。移动电话12500包括用于输出语音和声音的扬声器12580或另一类型声音输出单元、以及用于输入语音和声音的麦克风12550或另一类型声音输入单元。移动电话12500还包括用于捕捉视频和静止图像的相机12530，诸如电荷耦合器件(CCD)相机。移动电话12500还可包括：存储介质12570，用于存储通过相机12530捕捉到的、经由电子邮件接收到的、或根据各种方式获取的编码/解码数据(例如，视频或静止图像)；插槽12560，存储介质12570经由插槽12560被装入移动电话12500中。存储介质12570可以是闪存，例如，包括在塑料壳中的安全数字(SD)卡或电可擦和可编程只读存储器(EEPROM)。

图25示出移动电话12500的内部结构。为了系统地控制包括显示屏12520和操作面板12540的移动电话12500的部件，供电电路12700、操作输入控制器12640、图像编码器12720、相机接口12630、LCD控制器12620、图像解码器12690、复用器/解复用器12680、记录单元/读取单元12670、调制器/解调器12660和声音处理器12650经由同步总线12730被连接到中央控制器12710。

如果用户操作电源按钮，并从“电源关闭”状态设置为“电源开启”状态，则供电电路12700从电池组向移动电话12500的所有部件供电，从而将移动电话12500设置为操作模式。

中央控制器12710包括中央处理器(CPU)、只读存储器(ROM)和随机存取存储器(RAM)。

在移动电话12500将通信数据发送到外部的同时，在中央控制器12710的控制下，由移动电话12500产生数字信号。例如，声音处理器12650可产生数字声音信号，图像编码器12720可产生数字图像信号，并且消息的文本数据可经由操作面板12540和操作输入控制器12640被产生。当数字信号在中央控制器12710的控制下被传送到调制单元/解调单元12660时，调制单元/解调单元12660对数字信号的频带进行调制，并且通信电路12610对频带调制后的数字声音信号执行数模转换(DAC)和频率转换。从通信电路12610输出的发送信号可经由天线12510被发送到语音通信基站或无线基站12000。

例如，当移动电话12500处于通话模式时，通过中央控制器12710的控制，经由麦克风12550获取的声音信号通过声音处理器12650被变换成数字声音信号。数字声音信号可经由调制单元/解调单元12660和通信电路12610被变换成变换信号，并可经由天线12510被发送。

当文本消息(例如，电子邮件)在数据通信模式下被发送时，文本消息的文本数据经由操作面板12540被输入，并经由操作输入控制器12640被发送到中央控制器12610。通过中央控制器12610的控制，文本数据经由调制单元/解调单元12660和通信电路12610被变换成发送信号，并经由天线12510被发送到无线基站12000。

为了在数据通信模式下发送图像数据，由相机12530捕捉到的图像数据经由相机接口12630被提供给图像编码器12720。捕捉到的图像数据可经由相机接口12630和LCD控制器12620被直接显示在显示屏12520上。

图像编码器12720的结构可与上述视频编码设备100的结构相应。图像编码器12720可根据上述视频编码方法将从相机12530接收到的图像数据变换为压缩和编码后的图像数据，并随后将编码后的图像数据输出到复用器/解复用器12680。在相机12530的记录操作期间，由移动电话12500的麦克风12550获取的声音信号可经由声音处理器12650被变换成数字声音数据，并且数字声音数据可被发送到复用器/解复用器12680。

复用器/解复用器12680对从图像编码器12720接收到的编码后的图像数据与从声音处理器12650接收到的声音数据一起进行复用。对数据进行复用的结果可经由调制单元/解调单元12660和通信电路12610被变换成发送信号，然后可经由天线12510被发送。

当移动电话12500从外部接收通信数据时，可对经由天线12510接收到的信号执行频率恢复和模数转换(ADC)以将信号变换成数字信号。调制单元/解调单元12660对数字信号的频带进行调制。根据频带调制后的数字信号的类型，将所述数字信号发送到视频解码器12690、声音处理器12650或LCD控制器12620。

在通话模式期间，移动电话12500对经由天线12510接收到的信号进行放大，并通过对放大后的信号执行频率转换和ADC来获得数字声音信号。通过中央控制器12710的控制，接收到的数字声音信号经由调制单元/解调单元12660和声音处理器12650被变换成模拟声音信号，并且模拟声音信号经由扬声器12580被输出。

当在数据通信模式期间时，接收在互联网网站上访问的视频文件的数据，经由调制单元/解调单元12660将经由天线12510从无线基站12000接收到的信号输出为复用数据，并将复用数据发送到复用器/解复用器12680。

为了对经由天线12510接收到的复用数据进行解码，复用器/解复用器12680将复用数据解复用成编码后的视频数据流和编码后的音频数据流。经由同步总线12730，编码后的视频数据流和编码后的音频数据流分别被提供给视频解码器12690和声音处理器12650。

图像解码器12690的结构可与上述视频解码设备的结构相应。图像解码器12690可通过使用根据实施例的上述视频解码方法，对编码后的视频数据进行解码来获取重建的视频数据，并经由LCD控制器12620将重建的视频数据提供给显示屏12520。

因此，可将在互联网网站上访问的视频文件的数据显示在显示屏12520上。同时，声音处理器12650可将音频数据变换成模拟声音信号，并将模拟声音信号提供给扬声器12580。因此，也可经由扬声器12580再现在互联网网站上访问的视频文件中包含的音频数据。

移动电话12500或另一类型的通信终端可以是包括根据实施例的视频编码设备和视频解码设备两者的收发终端，可以是仅包括视频编码设备的收发终端，或者可以是仅包括视频解码设备的收发终端。

根据实施例的通信系统不限于以上参照图24描述的通信系统。例如，图26示出根据实施例的采用通信系统的数字广播系统。图26的数字广播系统可通过使用根据实施例的视频编码设备和视频解码设备来接收经由卫星或地面网络发送的数字广播。

具体地，广播站12890通过使用无线电波将视频数据流发送到通信卫星或广播卫星12900。广播卫星12900发送广播信号，广播信号经由家用天线12860被发送到卫星广播接收器。在每个房屋中，可通过TV接收器12810、机顶盒12870或其它装置对编码后的视频流进行解码并再现。

当根据实施例的视频解码设备被实现在再现设备12830中时，再现设备12830可对记录在存储介质12820(诸如盘或存储卡)上的编码后的视频流进行解析和解码，以重建数字信号。因此，可在例如监视器12840上再现重建的视频信号。

在被连接到用于卫星/地面广播的天线12860或用于接收有线电视(TV)广播的线缆天线12850的机顶盒12870中，可安装根据实施例的视频解码设备。从机顶盒12870输出的数据也可被再现在TV监视器12880上。

作为另一示例，可将根据实施例的视频解码设备安装在TV接收器12810中，而不是机顶盒12870中。

具有适当天线12910的汽车12920可接收从卫星12900或无线基站11700发送的信号。可在安装在汽车12920中的汽车导航系统12930的显示屏上再现解码后的视频。

视频信号可由根据实施例的视频编码设备来编码，然后可被存储在存储介质中。具体地，可由DVD记录器将图像信号存储在DVD盘12960中，或可由硬盘记录器12950将图像信号存储在硬盘中。作为另一示例，可将视频信号存储在SD卡12970中。如果硬盘记录器12950包括根据实施例的视频解码设备，则记录在DVD盘12960、SD卡12970或另一存储介质上的视频信号可在TV监视器12880上被再现。

汽车导航系统12930可不包括图26相机12530、相机接口12630和视频编码器12720。例如，计算机12100和TV接收器12810可不包括图26的相机12530、相机接口12630和视频编码器12720。

图27是示出根据实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构的示图。

云计算系统可包括云计算服务器14000、用户数据库(DB)14100、多个计算资源14200和用户终端。

响应于来自用户终端的请求，云计算系统经由数据通信网络(例如，互联网)提供多个计算资源14200的点播外包服务。在云计算环境下，服务提供商通过使用虚拟技术组合位于不同的物理位置的数据中心处的计算资源，来为用户提供想要的服务。服务用户不必将计算资源(例如，应用、存储器、操作系统(OS)和安全软件)安装在他/她自己的终端中以使用它们，但可在想要的时间点在通过虚拟技术产生的虚拟空间中从服务中选择和使用想要的服务。

被指定的服务用户的用户终端经由包括互联网和移动电信网络的数据通信网络被连接到云计算服务器14000。可从云计算服务器14100向用户终端提供云计算服务，特别是视频再现服务。用户终端可以是能够被连接到互联网的各种类型的电子装置，例如，桌上型PC 14300、智能TV 14400、智能电话14500、笔记本计算机14600、便携式多媒体播放器(PMP)14700、平板PC 14800等。

云计算服务器14000可组合分布在云网络中的多个计算资源14200，并向用户终端提供组合的结果。所述多个计算资源14200可包括各种数据服务，并可包括从用户终端上载的数据。如上所描述的，云计算服务器14000可通过根据虚拟技术组合分布在不同区域中的视频数据库来向用户终端提供想要的服务。

将关于已经订购云计算服务的用户的用户信息存储在用户DB 14100中。用户信息可包括用户的注册信息、地址、姓名和个人信用信息。用户信息还可包括视频的索引。这里，所述索引可包括已经被再现的视频的列表、正在被再现的视频的列表、之前正在被再现的视频的暂停点等。

可在用户装置之间共享存储在用户DB 14100中的关于视频的信息。例如，当响应于来自笔记本计算机14600的请求将视频服务提供给笔记本计算机14600时，视频服务的再现历史被存储在用户DB 14100中。当从智能电话14500接收到用于再现此视频服务的请求时，云计算服务器14000基于用户DB 14100搜索并再现此视频服务。当智能电话14500从云计算服务器14000接收到视频数据流时，通过对视频数据流进行解码来再现视频的处理与以上参照图24描述的移动电话12500的操作类似。

云计算服务器14000可参考存储在用户DB 14100中的期望视频服务的再现历史。例如，云计算服务器14000从用户终端接收用于再现存储在用户DB 14100中的视频的请求。如果此视频被再现过，则由云计算服务器14000执行的对此视频进行流传输的方法可根据来自用户终端的请求(即，根据是将从视频的起点还是视频的暂停点开始再现视频)而不同。例如，如果用户终端请求从视频的起点开始再现视频，则云计算服务器14000将从视频的第一帧开始的视频的流数据发送到用户终端。如果用户终端请求从视频的暂停点开始再现视频，则云计算服务器14000将从与暂停点相应的帧开始的视频的流数据发送到用户终端。

在此情况下，用户终端可包括如以上参照图1a至图20描述的视频解码设备。作为另一示例，用户终端可包括如以上参照图1a至图20描述的视频编码设备。可选地，用户终端可包括如以上参照图1a至图20描述的视频解码设备和视频编码设备两者。

以上参照图21至图27描述了以上参照图1a至图20描述的根据实施例的视频编码方法、视频解码方法、视频编码设备和视频解码设备的各种应用。然而，将视频编码方法和视频解码方法存储在存储介质中的方法或者将视频编码设备和视频解码设备实现在以上参照图1a至图20描述的装置中的方法不限于以上参照图21至图27描述的实施例。

虽然已经参照本发明的实施例具体示出和描述了本发明，但是本领域的普通技术人员将理解，在不脱离权利要求的精神和范围的情况下，可作出形式和细节上的各种改变。实施例应仅被认为是说明性意义，而不是为了限制的目的。因此，本发明的范围不由本发明的详细说明来限定，而由权利要求来限定，该范围内的所有差异将被解释为被包括在本发明中。

Claims

1.一种多层视频解码方法，包括：

从比特流获取指示关于包括多个层的层集合的解码画面缓冲器(DPB)的最大大小的信息；

基于获取的指示DPB的最大大小的信息来确定关于所述层集合的DPB的大小；

将所述层集合的解码画面存储在具有所确定的大小的DPB中，

其中，获取指示关于包括多个层的层集合的DPB的最大大小的信息的步骤包括：当所述层集合包括多个时间子层时，根据所述层集合中所包括的时间子层获取指示DPB的最大大小的信息，

其中，根据所述层集合中所包括的时间子层获取指示DPB的最大大小的信息的步骤包括：当在所述层集合中所包括的所述多个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，获取指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，获取指示根据时间子层的DPB的最大大小的信息。

2.如权利要求1所述的多层视频解码方法，其中，指示与在所述层集合中所包括的所述多个时间子层之中的第一索引的时间子层有关的DPB的最大大小的信息指示这样的DPB的最大大小：该DPB的最大大小等于或大于与级别比第一索引低的第二索引的时间子层有关的DPB的最大大小。

3.如权利要求1所述的多层视频解码方法，还包括：

确定是否能够从比特流获取指示与所述层集合中所包括的层格式组有关的子DPB的最大大小的信息，

当确定能够获取指示所述子DPB的最大大小的信息时，获取指示所述子DPB的最大大小的信息。

4.如权利要求3所述的多层视频解码方法，还包括：

确定与所述层集合中所包括的层格式组有关的子DPB的大小；

将所述层格式组的解码画面存储在具有所确定的大小的子DPB中。

5.如权利要求3所述的多层视频解码方法，其中，获取指示所述子DPB的最大大小的信息的步骤包括：当所述层集合包括所述多个时间子层时，根据所述层集合中所包括的时间子层来获取指示与所述层格式组有关的所述子DPB的最大大小的信息。

6.如权利要求1所述的多层视频解码方法，其中，获取指示关于包括多个层的层集合的DPB的最大大小的信息的步骤包括：从包括高效视频编码(HEVC)网络抽象层(NAL)单元的比特流中的每个NAL的原始字节序列有效载荷(RBSP)的视频参数集(VPS)扩展区获取指示DPB的最大大小的信息。

7.一种多层视频解码设备，包括：

获取器，被配置为从比特流获取指示关于包括多个层的层集合的解码画面缓冲器(DPB)的最大大小的信息；

DPB，具有与所述层集合有关的大小，其中，与所述层集合有关的大小是基于获取的指示DPB的最大大小的信息来确定的；

解码器，被配置为将所述层集合的解码画面存储在具有所确定的大小的DPB中，

其中，当所述层集合包括多个时间子层时，获取器根据所述层集合中所包括的时间子层获取指示子DPB的最大大小的信息，

当指示子DPB的最大大小的信息根据时间子层被获取时，在所述层集合中所包括的所述多个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，指示根据时间子层的DPB的最大大小的信息被获取，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，指示根据时间子层的DPB的最大大小的信息被获取。

8.如权利要求7所述的多层视频解码设备，其中，指示与在所述层集合中所包括的所述多个时间子层之中的第一索引的时间子层有关的DPB的最大大小的信息指示这样的DPB的最大大小：该DPB的最大大小等于或大于与级别比第一索引低的第二索引的时间子层有关的DPB的最大大小。

9.如权利要求7所述的多层视频解码设备，其中，获取器确定是否能够从比特流获取指示与所述层集合中所包括的层格式组有关的子DPB的最大大小的信息，并且当确定能够获取指示所述子DPB的最大大小的信息时，还获取指示与所述层格式组有关的所述子DPB的最大大小的信息。

10.如权利要求9所述的多层视频解码设备，其中，DPB包括基于指示所述子DPB的最大大小的信息而确定的至少一个子DPB，

所述层格式组的解码画面被存储在确定的所述至少一个子DPB中。

11.如权利要求7所述的多层视频解码设备，其中，获取器从包括高效视频编码(HEVC)网络抽象层(NAL)单元的比特流中的每个NAL的原始字节序列有效载荷(RBSP)的视频参数集(VPS)扩展区获取指示DPB的最大大小的信息。

12.一种多层视频编码方法，包括：

确定多个层集合，其中，所述多个层集合中的每一个层集合包括多个编码层之中的至少一个层；

确定与确定的所述多个层集合中的每一个层集合有关的解码画面缓冲器(DPB)的最大大小；

产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息，

其中，产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息的步骤包括：当所述多个层集合中的每一个层集合包括多个时间子层时，根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息，

其中，根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息的步骤包括：当在所述多个层集合中的每一个层集合中所包括的所述至少一个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，产生指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，产生指示根据时间子层的DPB的最大大小的信息。

13.一种多层视频编码设备，包括：

解码器，被配置为通过对多层视频进行编码来产生多个编码层；

比特流产生器，被配置为确定多个层集合，确定与所确定的所述多个层集合中的每一个层集合有关的解码画面缓冲器(DPB)的最大大小，并产生指示与确定的所述多个层集合中的每一个层集合有关的DPB的最大大小的信息，其中，所述多个层集合中的每一个层集合包括所述多个编码层之中的至少一个层，

其中，当所述多个层集合中的每一个层集合包括多个时间子层时，比特流产生器根据所述多个层集合中的每一个层集合中所包括的时间子层来产生指示DPB的最大大小的信息，

当在所述多个层集合中的每一个层集合中所包括的所述至少一个层之中的包括最多时间子层的层中所包括的时间子层的数量是N，并且在比特流中存在关于N的信息时，在将索引从0增大到N的同时，比特流产生器产生指示根据时间子层的DPB的最大大小的信息，当在比特流中不存在关于N的信息，并且在所述多层中所包括的一个或更多个层之中的包括最多时间子层的层中所包括的时间子层的数量是M时，在将索引从0增大到M的同时，比特流产生器产生指示根据时间子层的DPB的最大大小的信息。

14.一种记录有程序的计算机可读记录介质，其中，所述程序在被计算机执行时执行权利要求1至6中的任意一项的多层视频解码方法。