CN105325002A

CN105325002A - 使用视点合成预测的多视点视频编码方法及其设备以及多视点视频解码方法及其设备

Info

Publication number: CN105325002A
Application number: CN201480035934.7A
Authority: CN
Inventors: 李振荣; 朴慜祐
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-04-23
Filing date: 2014-04-23
Publication date: 2016-02-10
Also published as: KR20140127177A; EP2983369A4; WO2014175647A1; EP2983369A1; US20160134891A1

Abstract

公开了一种多视点视频解码方法，包括：确定正被解码的当前块的预测模式是否是合并模式的步骤；当确定正被解码的当前块的预测模式为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个候选添加为合并候选，来构造合并候选列表的步骤；通过在合并候选列表中选择将用于当前块的预测的合并候选，来对当前块进行预测的步骤，其中，在构造合并候选列表的步骤中，用于确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

Description

使用视点合成预测的多视点视频编码方法及其设备以及多视点视频解码方法及其设备

技术领域

本公开涉及一种多视点视频编码方法和设备以及多视点视频解码方法和设备，更具体地讲，涉及一种使用视点合成预测的多视点视频编码方法和设备以及多视点视频解码方法和设备。

背景技术

立体图像(stereoscopicimage)是一种同时提供关于深度和空间的形状信息的三维(3D)图像。在立体感图像(stereo-image)中，将不同的视点提供给左眼和右眼，而在立体图像中，提供图像使得每当观察者改变他或她的视点时图像看起来像从不同方向被看到。因此，为了产生立体图像，需要在不同的视点捕获的图像。

为了产生立体图像而在不同视点捕获的图像具有大量的数据。因此，考虑到网络架构、地面带宽等，对于立体图像而言，即使通过使用适合于单视点视频编码(诸如，MPEG-2、H.264/AVC或HEVC)的编码设备也几乎不可能对立体图像进行压缩。

然而，由于从观察者的不同视点捕获的图像彼此相关，因此关于图像的很多信息重叠。因此，可通过使用适合于提供视点冗余的多视点图像的编码设备来发送较少量的数据。

因此，需要适合于产生立体图像的多视点图像编码设备。具体地讲，需要开发用于有效减少时间和视点冗余的技术。

发明内容

技术问题

提供了一种使用视点合成预测的多视点视频编码方法和设备以及多视点视频解码方法和设备。

技术方案

根据示例性实施例的一方面，一种多视点视频解码方法包括：确定正被解码的当前块的预测模式是否是合并模式；当预测模式被确定为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，其中，在形成合并候选列表的步骤中，用于确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

有益效果

根据本公开的示例性实施例，由于仅用于当前块的视点合成预测候选被使用，因此视点合成预测候选可被添加为具有固定优先级的合并候选。因此，由于不对邻近块是否经由视点合成预测被编码进行确定，因此VSP标志可不被存储。

附图说明

图1a是根据各种实施例的多视点视频编码设备10的框图。

图1b是根据各种实施例的多视点视频编码方法的流程图。

图2a是根据各种实施例的多视点视频解码设备20的框图。

图2b是根据各种实施例的多视点视频解码方法的流程图。

图3a示出根据示例性实施例的在帧间预测模式中使用的空间预测候选。

图3b示出根据示例性实施例的在帧间预测模式中使用的时间预测候选。

图4a示出根据示例性实施例的在视点间预测模式中使用的视点间预测候选。

图4b是用于描述根据示例性实施例的使用图像合成预测的编码的示图。

图4c是用于描述根据示例性实施例的使用虚拟视点的合成图像的编码处理的示图。

图4d是用于描述根据示例性实施例的使用虚拟视点的合成图像的解码处理的示图。

图4e是用于描述根据示例性实施例的视点合成预测的示图。

图5a是用于描述根据本公开的示例性实施例的基于候选之间的优先级将视点合成预测候选添加到合并候选列表的处理的示图。

图5b是用于描述根据本公开的另一示例性实施例的基于候选之间的优先级将视点合成预测候选添加到合并候选列表的处理的示图。

图6a示出用于描述根据本公开的示例性实施例的将视点合成预测候选添加到合并候选列表的处理的伪码。

图6b示出用于描述根据本公开的示例性实施例的将视点合成预测候选添加到合并候选列表的处理的伪码。

图6c示出用于指示根据本公开的示例性实施例的视点合成预测候选模式标志的伪码。

图7是根据示例性实施例的基于根据树结构的编码单元的视频编码设备的框图。

图8是根据示例性实施例的基于根据树结构的编码单元的视频解码设备的框图。

图9是用于描述根据本公开的示例性实施例的编码单元的概念的示图。

图10是根据本公开的示例性实施例的基于编码单元的图像编码器的框图。

图11是根据本公开的示例性实施例的基于编码单元的图像解码器的框图。

图12是示出根据本公开的示例性实施例的根据深度的较深层编码单元和分区的示图。

图13是用于描述根据本公开的示例性实施例的编码单元与变换单元之间的关系的示图。

图14是用于描述根据本公开的实施例的与深度相应的编码单元的编码信息的示图。

图15是根据本公开的实施例的根据深度的较深层编码单元的示图。

图16至图18是用于描述根据本公开的示例性实施例的编码单元、预测单元和变换单元之间的关系的示图。

图19是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。

图20是根据示例性实施例的存储有程序的盘的物理结构的示图。

图21是用于通过使用盘来记录和读取程序的盘驱动器的示图。

图22是用于提供内容分发服务的内容供应系统的整体结构的示图。

图23和图24分别是根据示例性实施例的应用了本公开的视频编码方法和视频解码方法的移动电话的外部结构和内部结构的示图。

图25是应用了根据本公开的通信系统的数字广播系统的示图。

图26是示出根据本公开的示例性实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构的示图。

最佳模式

用于当前块的邻近块的合并候选的类型可基于关于所述邻近块的编码的信息被确定并被添加到合并候选列表。

当关于当前块的邻近块的编码的信息是运动信息时，用于所述邻近块的合并候选可被确定为空间候选并被添加到合并候选列表。

当关于当前块的邻近块的编码的信息是视差信息时，用于所述邻近块的合并候选可被确定为视差候选并被添加到合并候选列表。

当关于当前块的邻近块的编码的信息是视差信息时，用于所述邻近块的合并候选可被确定为视点间候选并被添加到合并候选列表。

在当前块的邻近块被编码为视点合成预测信息时，用于所述邻近块的合并候选可被确定为视差候选并被添加到合并候选列表。

预测步骤可包括：从合并候选列表获取在当前块中使用的合并索引，并通过使用由合并索引指示的合并候选来对当前块进行预测。

根据另一示例性实施例的一方面，一种多视点视频编码方法包括：确定正被编码的当前块的预测模式是否是合并模式；当预测模式被确定为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，其中，在形成合并候选列表的步骤中，用于确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

根据另一示例性实施例的一方面，一种多视点视频解码设备包括：模式确定器，被配置为确定正被解码的当前块的预测模式是否是合并模式；合并候选列表形成器，被配置为当模式确定器确定预测模式为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；预测器，被配置为通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，其中，用于由合并候选列表形成器确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

根据另一示例性实施例的一方面，一种多视点视频编码设备包括：模式确定器，被配置为确定正被编码的当前块的预测模式是否是合并模式；合并候选列表形成器，被配置为当模式确定器确定预测模式为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；预测器，被配置为通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，其中，用于由合并候选列表形成器确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

根据另一示例性实施例的一方面，一种计算机可读记录介质记录有用于执行多视点视频解码方法的程序。

具体实施方式

以下，将参照图1a至图6c描述根据各种实施例的使用视点合成预测的多视点视频编码技术和多视点视频解码技术。此外，将参照图7至图19描述根据各种实施例的可应用于多视点视频编码技术和多视点视频解码技术的基于具有树结构的编码单元的视频编码技术和视频解码技术。此外，将参照图20至图26描述可应用视频编码方法和视频解码方法的各种实施例。

以下，“图像”可表示静止图像或视频的运动图像，或视频本身。

以下，“样点”是分配到图像的采样位置的数据，并可指示作为处理目标的数据。例如，空间域的图像中的像素可以是样点。

预测用于减少在图像中重叠的信息。视频压缩中的预测是指提供与原始信号类似的预测信号。预测可基于方法大致分类为经由空间重建的图像参考的预测、经由时间重建的图像参考的预测和其他符号的预测。

这里，帧内预测是仅允许空间参考的预测技术，其中，通过参考在当前将被编码的块周围的已被重建的样点来预测当前块。帧内预测是从当前画面中的已编码的邻近像素产生用于将被编码的块的预测值的技术。这样的帧内预测基于画面中的邻近像素具有高相关性的事实。

类似地，形成视频的画面也具有高时间相关性。因此，可从预先编码的画面产生用于当前将被编码的画面中的编码块的预测值。从预先编码的画面产生预测块的技术被称为帧间预测。

在帧间预测中，从预先编码的画面产生预测块，但由于存储器的限制，无法存储和参考所有重建的画面。因此，在视频编解码器中，与将被编码的画面具有高相关性的一些重建画面被存储，并且一部分重建画面用于帧间预测。在视频编解码器中，存储有重建画面的空间将被称为解码画面缓冲器(DPB)，存储在DPB中的画面之中的用于帧间预测的重建画面被称为参考画面。编码器(编码设备)在帧间预测处理期间从参考画面搜索与当前将被编码的块最类似的预测块，随后将关于预测块的信息发送到解码器(解码设备)。此时，从参考画面搜索合适的预测块的处理被称为运动估计。为了精确的运动估计，可对重建画面进行插值，随后可根据视频编解码器的类型以子像素为单位对插值后的图像执行运动估计。在运动补偿中，基于在运动估计处理中找到的合适的预测块的运动信息(运动矢量或参考画面索引)来产生预测块。总的来说，视频编码器(编码设备)经由运动估计处理从参考画面搜索合适的预测块，并经由运动补偿处理产生预测块。视频编码器(编码设备)对差分信号执行变换、量化和熵编码，其中，差分信号是原始块与经由帧间预测产生的预测块之间的差。

在当前编码块在帧间预测模式下被编码时，由于使用了从编码器发送的参考画面信息和参考块信息，因此解码器(解码设备)可仅经由运动补偿处理产生预测块，而无需对预测块执行运动估计处理。解码器(解码设备)可通过将产生预测块和经由熵解码、反量化和逆变换处理而产生的残差信号相加来重建图像，根据编解码器的类型应用环路滤波器，并恢复最终重建的画面，使得最终重建的画面稍后被用作参考画面。

在帧间预测中，当作为运动估计的结果存在多个参考画面列表时，关于哪个参考画面列表被使用的信息、用于对参考画面列表中的参考画面进行分类的索引和关于运动矢量的信息需要被发送到解码器(解码设备)。为了减少在帧间预测模式下的预测单元(PU)中发送的运动信息的量，使用包括合并模式和先进运动矢量预测(AMVP)模式的模式，其中，合并模式使用邻近块与当前块之间的运动信息的相关性。上述两种方法通过形成用于推导运动信息的邻近块的列表并将列表中的邻近块选择信息发送到解码器(解码设备)，有效地减少了运动相关的数据的量。因此，编码器(编码设备)和解码器(解码设备)需要经由相同的处理获取邻近块候选列表。合并跳过模式是一种特殊的合并模式，其中，在量化被执行之后用于熵编码的变换系数都接近于0，并且仅邻近块选择信息被发送而无需发送残差信号。因此，可在具有较少移动的图像、静止图像和屏幕内容图像中获取相对高的编码效率。

合并模式是一种从邻近块推导参考方向、参考画面索引和运动矢量预测(MVP)的技术。通过经由合并推导出的MVP来计算运动矢量值。由于多条运动信息不被发送到解码器(解码设备)，因此可在与邻近块具有高相关性的块中获取高编码效率。编码器(编码设备)通过搜索执行了运动预测的邻近块来形成合并候选，并用信号将作为运动搜索的结果而被选择的合并块信息作为合并索引发送到解码器(解码设备)。根据本公开的示例性实施例的编码器(编码设备)和解码器(解码设备)可包括以下候选作为合并模式的候选。然而，合并模式的候选不限于此，根据执行预测的方法可添加各种类型的候选。

(1)视点间候选

(2)空间候选

(3)视差候选

(4)时间候选

(5)视点合成预测(VSP)候选

这里，空间候选和时间候选可在同一视点中执行预测或在多视点视频中的当前视点与和当前视点不同的另一视点之间执行预测，而视点间候选、视差候选和VSP候选可在多视点视频中的当前视点与和当前视点不同的另一视点之间执行预测。

图1a是根据各种实施例的多视点视频编码设备10的框图。图1b是根据各种实施例的多视点视频编码方法的流程图。

根据各种实施例的多视点视频编码设备10包括模式确定器12、合并候选列表形成器14和预测器16。

模式确定器12确定正被编码的当前块的预测模式是否是合并模式。详细地，模式确定器12可通过应用预测模式(诸如，合并模式、AMVP模式和合并跳过模式)对当前块进行编码来确定率失真代价，并基于确定的率失真代价来确定合适的预测模式。

当模式确定器12确定预测模式是合并模式时，合并候选形成器14通过根据预定优先级将视点间候选、空间候选、视差候选、VSP候选和时间候选中的至少一个添加为合并候选，形成合并候选列表。这里，候选不限于此，合并候选列表形成器14可通过添加各种类型的合并候选来获取合并候选列表。这里，用于由合并候选列表形成器14确定是否将用于当前块的VSP候选添加为合并候选的优先级可以是固定的。此外，合并候选列表形成器14可基于关于当前块的邻近块的编码的信息来确定关于所述邻近块的合并候选的类型，并将该类型的合并候选添加到合并候选列表。此时，当关于邻近块的编码的信息是运动信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为空间候选，并将该空间候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视差候选，并将该视差候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视点间候选，并将该视点间候选添加到合并候选列表。此外，当邻近块被编码为VSP信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。当包括在当前被编码的图像中的最大编码单元被划分为至少一个编码单元并且一个编码单元被划分为用于预测编码的至少一个预测单元时，当前块是预测单元。邻近块是与当前块邻近的块，例如，在形成下述空间候选时使用的块可用作邻近块。

预测器16通过从合并候选列表选择将用于对当前块进行预测的合并候选来对当前块进行预测。详细地，通过使用各种候选对当前块进行编码来确定率失真代价，并基于确定的率失真代价确定合适的合并候选。

以下，参照图1b描述多视点视频编码设备10的操作。

图1b是根据各种实施例的多视点视频编码方法的流程图。

在操作11，模式确定器12确定正被编码的当前块的预测模式是否是合并模式。

在操作13，当预测模式被确定为合并模式时，合并候选列表形成器14通过根据预定优先级将视点间候选、空间候选、视差候选、VSP候选和时间候选中的至少一个添加为合并候选，形成合并候选列表。

在操作15，预测器16通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测。

此外，在操作13，用于由合并候选列表形成器14确定是否将用于当前块的VSP候选添加为合并候选的优先级可以是固定的。此外，合并候选列表形成器14可基于关于当前块的邻近块的编码的信息确定关于所述邻近块的合并候选的类型，并将该类型的合并候选添加到合并候选列表。此时，当关于邻近块的编码的信息是运动信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为空间候选，并将空间候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视点间候选，并将视点间候选添加到合并候选列表。此外，当邻近块被编码为VSP信息时，合并候选列表形成器14可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。

根据各种实施例的多视点视频编码设备10可包括中央处理器(未示出)，其中，中央处理器总体上控制模式确定器12、合并候选列表形成器14和预测器16。可选择地，模式确定器12、合并候选列表形成器14和预测器16可由它们各自的处理器(未示出)操作，多视点视频编码设备10可根据处理器(未示出)的交互总体上进行操作。可选择地，可根据多视点视频编码设备10的外部处理器(未示出)的控制对模式确定器12、合并候选列表形成器14和预测器16进行控制。

多视点视频编码设备10可包括存储有模式确定器12、合并候选列表形成器14和预测器16的输入数据和输出数据的至少一个数据存储单元(未示出)。多视点视频编码设备10可包括控制数据存储单元(未示出)的数据输入和数据输出的存储器控制器(未示出)。

多视点视频编码设备10可与内部视频编码处理器或外部视频编码处理器关联地进行操作，以便输出视频编码结果，从而执行包括变换的视频编码操作。多视点视频编码设备10的内部视频编码处理器可作为单独的处理器实现视频编码操作。此外，由于多视点视频编码设备10、中央处理设备或图形处理设备包括视频编码处理模块，因此可实现基本视频编码操作。

图2a是根据各种实施例的多视点视频解码设备的框图。

根据各种实施例的多视点视频解码设备20包括模式确定器22、合并候选列表形成器24和预测器26。

模式确定器22确定正被解码的当前块的预测模式是否是合并模式。

当模式确定器22确定预测模式是合并模式时，合并候选列表形成器24通过根据预定优先级将视点间候选、空间候选、视差候选、VSP候选和时间候选中的至少一个添加为合并候选，形成合并候选列表。这里，候选不限于此，合并候选列表形成器24可通过添加各种类型的合并候选来获取合并候选列表。这里，用于由合并候选列表形成器24确定是否将用于当前块的VSP候选添加为合并候选的优先级可以是固定的。此外，合并候选列表形成器24可基于关于当前块的邻近块的编码的信息确定关于所述邻近块的合并候选的类型，并将该类型的合并候选添加到合并候选列表。此时，当关于邻近块的编码的信息是运动信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为空间候选，并将空间候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视点间候选，并将视点间候选添加到合并候选列表。此外，当邻近块被编码为VSP信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。当包括在当前被编码的图像中的最大编码单元被划分为至少一个编码单元并且一个编码单元被划分为用于预测编码的至少一个预测单元时，当前块是预测单元。邻近块是与当前块邻近的块，例如，在形成下述空间候选时使用的块可用作邻近块。

预测器26通过从合并候选列表选择将用于对当前块进行预测的合并候选来对当前块进行预测。此时，预测器26可通过获取在当前块中使用的合并索引并使用由该合并索引指示的合并候选，对当前块进行预测。

以下，将参照图2b描述多视点视频解码设备20的操作。

图2b是根据各种实施例的多视点视频解码方法的流程图。

在操作21，模式确定器22可确定正被解码的当前块的预测模式是否是合并模式。

在操作23，当预测模式被确定为合并模式时，合并候选列表形成器24通过根据预定优先级将视点间候选、空间候选、视差候选、VSP候选和时间候选中的至少一个添加为合并候选来形成合并候选列表。这里，候选不限于此，合并候选列表形成器24可通过添加各种类型的合并候选来获取合并候选列表。这里，用于由合并候选列表形成器24确定是否将用于当前块的VSP候选添加为合并候选的优先级是固定的。此外，合并候选列表形成器24可基于关于当前块的邻近块的编码的信息确定关于所述邻近块的合并候选的类型，并将该类型的合并候选添加到合并候选列表。此时，当关于邻近块的编码的信息是运动信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为空间候选，并将空间候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。此外，当关于邻近块的编码的信息是视差信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视点间候选，并将视点间候选添加到合并候选列表。此外，当邻近块被编码为VSP信息时，合并候选列表形成器24可将关于邻近块的合并候选确定为视差候选，并将视差候选添加到合并候选列表。

在操作25，预测器26可通过从合并候选列表选择将用于对当前块进行预测的合并候选来对当前块进行预测。此时，预测器26可通过获取在当前块中使用的合并索引并使用来自合并候选列表的由该合并索引指示的合并候选，对当前块进行预测。

根据各种实施例的多视点视频解码设备20可包括中央处理器(未示出)，其中，中央处理器总体上控制模式确定器22、合并候选列表形成器24和预测器26。可选择地，模式确定器22、合并候选列表形成器24和预测器26可由它们各自的处理器(未示出)进行操作，多视点视频解码设备20可根据处理器(未示出)的交互来总体上进行操作。可选择地，可根据多视点视频解码设备20的外部处理器(未示出)的控制对模式确定器22、合并候选列表形成器24和预测器26进行控制。

多视点视频解码设备20可包括存储有模式确定器22、合并候选列表形成器24和预测器26的输入数据和输出数据的至少一个数据存储单元(未示出)。多视点视频解码设备20可包括控制数据存储单元(未示出)的数据输入和数据输出的存储器控制器(未示出)。

根据各种实施例的多视点视频解码设备20可与内部视频解码处理器或外部视频解码处理器关联地进行操作，以便经由视频解码重建视频，从而执行包括逆变换的视频解码操作。根据各种实施例的多视点视频解码设备20的内部视频解码处理器可以是单独的处理器，或者由于多视点视频解码设备20、中央处理设备或图形处理设备包括视频解码处理模块，因此可实现基本视频解码操作。

以下，将逐个描述可作为合并候选被添加到合并候选列表的(1)视点间候选、(2)空间候选、(3)视差候选、(4)时间候选和(5)VSP候选。

这里，将首先描述可用于在同一视点和与当前被预测的块的视点不同的另一视点进行预测的(2)空间候选和(4)时间候选，并且将描述可用于参考与当前被预测的块的视点不同的另一视点来进行预测的(1)视点间候选、(3)视差候选和(5)VSP候选。

首先，将描述(2)空间候选。图3a示出根据实施例的在帧间预测模式中使用的空间预测候选。

假设当前块和靠近当前块的邻近块的运动类似，靠近当前块的邻近块被添加到合并候选。2Nx2N的预测单元(PU)31使用五个邻近块作为空间合并候选，并依次找到和使用A₁33、B₁35、B₀34、A₀32和B₂36。如果邻近块是帧边界或在帧内预测模式下被编码并因此不包括运动信息，则无法使用空间候选。

接下来，现将描述(4)时间候选。图3b示出根据实施例的在帧间预测模式下使用的时间预测候选。

当时间候选被使用时，用于时间合并候选的参考画面的方向和参考画面索引通过条带头被发送到解码器(解码设备)。图3b示出当前PU的时间合并候选的选择位置。相同位置处的PU是选择的参考画面中的处于与当前PU的位置相应的位置处的PU。由于预测性能，参考PU的右下侧块H可首先被用作时间合并候选，并且如果右下侧PU的运动信息不存在，则参考PU的中心处的块C₃可被用作时间合并候选。如果时间合并候选块位于编码树块(CTB)的外侧，则不使用时间合并候选块，并且在图像边界或帧内预测的情况下，时间合并候选块的运动信息可能不存在。

接下来，现将描述(1)视点间候选和(3)视差候选。

可通过使用视点间预测方法去除空间冗余来得到多视点视频编码的压缩性能。当排除了通过移动相机而隐藏或暴露的区域时，在不同视点捕获的一个对象的图像具有高相似度。通过使用这样的视点相似性从不同视点的图像寻找与当前被编码的块最类似的区域并进行编码的方法被称为视差补偿预测。此外，用于视差补偿预测的运动矢量被称为从一般时间运动矢量分类出的视差矢量。

由于在参考另一视点的图像时，上述视差补偿预测方法符合在对单视点图像进行编码时执行的编码树单元(CTU)的一般用编码方法，因此可在不必使用与参考图像缓冲器管理不同的额外的编码算法的情况下，执行视差补偿预测方法。然而，当针对具有高视点相关性的多视点图像对在扩展视点编码期间被预先解码的邻近视点的编码参数进行预测时，可进行进一步的有效编码。因此，视点编码参数预测方法被使用。视点编码参数预测方法的示例包括视点间运动矢量预测方法。由于通过在不同视点捕获一个被摄体来获取多视点图像，因此除根据视点移动而隐藏或暴露的区域以外，多视点图像具有非常相似的运动特性。在通过使用这样的特性的扩展视点编码期间，可通过对被预先编码和预先解码的邻近视点的运动矢量进行预测来增加编码效率。

图4a示出根据本公开的实施例的视点间预测候选和视差候选。

在图4a中，当前视点的运动信息与预先编码的参考视点的运动信息一起被使用。当前视点的当前屏幕是当前被编码的额屏幕，当前块的运动信息共享预先编码的参考视点的运动预测信息。因此，首先获取当前块的位置x处的视差矢量。可通过估计当前视点的当前屏幕的深度图并使用与当前块的位置相关的深度块的最大深度值d来获取视差矢量。当获取了在当前块的位置x处的视差矢量时，可获取参考视点的参考样点位置x_R。包括参考样点位置x_R的参考屏幕的块是当前屏幕的当前块的相应块。当所述相应块经由帧间预测被编码时，所述相应块具有运动矢量。所述相应块的运动矢量被用作当前块的运动矢量的预测值。因此，关于所述相应块的运动矢量的信息可用作视点间候选。

视差候选与将视差矢量用作用于对当前块进行预测的运动矢量相关。当图4a中的相应块所位于的参考屏幕包括在参考画面列表中时，视差矢量可用作用于对当前块进行预测的运动矢量，此时，关于视差矢量的信息可用作视差候选。

为了对视点间运动矢量进行预测，在相邻视点的位置处的运动矢量需要被预测，其中，所述位置相应于当前将被编码的块。此时，可通过对在从参考视点图像中的当前坐标远离达视差的位置处的视点间运动矢量进行预测来进一步精确地对视点间运动矢量进行预测，可从邻近编码块推导出用于从相邻视点对运动矢量进行预测的视差。预测出的视点间运动矢量被分配并被编码为用于合并和AMVP的候选之中的第一候选。此外，当将被编码的块被编码为视点间运动矢量时，可存储此时使用的视差信息，以将视差信息提供给稍后将被编码的另一块。

接下来，现将描述(5)VSP候选。

由于多视点视频具有非常高的视点相关性，因此当从属视点图像被编码时，可通过将参考视点彩色图像和参考视点深度图像进行合成来获取将被编码的从属视点图像。当这样获取的从属视点图像是视点合成(VS)帧时，VS帧可用作附加参考图像以提高编码效率。

图4b是用于描述根据实施例的使用图像合成预测的编码的示图。由于I视点是不参考另一视点的参考视点，因此VSP不被使用，但由于P视点可使用I视点的数据，因此可使用VSP。VSP方法不仅可应用于彩色视频编码，还可应用于深度数据编码。

通过使用图像合成而产生的VS帧与将被编码的视点的图像相匹配。因此，如果图像合成被理想地执行，则VS帧与将被编码的当前视点的屏幕完全匹配。由于VS帧是通过使用邻近视点的图像而产生的图像，因此解码器可产生相同的VS帧。因此，由于与当前视点的屏幕相同的图像可被预测和产生，因此可通过使用视点相关性提高编码效率。详细的编码方法可使用这样的方法：在编码处理期间，产生VS帧并将VS帧添加到参考列表，并参考VS帧的共同定位块，而不必使用运动信息，其中，VS帧的共同定位块在与将被编码的当前视点的块相同的位置处。

图4c是用于描述根据实施例的使用虚拟视点的合成图像的编码处理的示图。

形成多视点视频的彩色图像和深度图像可被单独地编码和解码。参照图4c，编码处理包括下述处理：获取原始图像与经由基于块的预测而得到的预测图像之间的残差信号，并随后对该残差信号进行变换和量化。随后，去块滤波器用于精确地对下一图像进行预测。

由于当残差信号的量较低时编码所需的比特数较低，因此预测图像和原始图像的相似程度如何很重要。根据实施例，为了进行块预测，可使用基于帧内预测、帧间预测或视点间预测的合并模式、合并跳过模式或AMVP模式。

参照图4c，可能需要用于虚拟视点中的合成的附加结构，以产生虚拟视点的合成图像。参照图4c，为了产生当前视点的彩色图像的合成图像，多视点视频编码设备10可通过使用预先编码的邻近视点的彩色图像和深度图像来产生当前视点的彩色图像的合成图像。此外，为了产生当前视点的深度图像的合成图像，多视点视频编码设备10可通过使用预先编码的邻近视点的深度图像来产生当前视点的深度图像的合成图像。

图4d是用于描述根据实施例的使用虚拟视点的合成图像的解码处理的示图。

由于图4d的多视点视频解码设备20基本上与图4c的多视点视频编码设备10执行相同的操作，因此不再次提供其细节。

图4e是用于描述根据本公开的另一实施例的VSP的示图。

在操作S41，由于多视点视频解码设备20不具有关于当前块的视差矢量的信息，多视点视频解码设备20推导当前块的邻近块的视差矢量。

在操作S42，多视点视频解码设备20通过使用关于当前块的邻近块的视差矢量的信息对关于当前块的视差矢量的信息进行预测。因此，与视差矢量相应的参考视点的深度块信息被用作当前块的深度信息的预测值。通过使用预测出的深度块来推导参考视点的视差矢量。

在操作S43，多视点视频解码设备20使用推导出的视差矢量对包括在当前块中的块执行后逆向映射(backwardwarping)来确定邻近视点的彩色图像中包括的参考块。多视点视频解码设备20使用参考块来产生当前块的预测值，并通过使用产生的预测值来执行预测编码。

同时，尽管以上描述了通过多视点视频解码设备20执行的示例，但本领域的普通技术人员将理解，也可由多视点视频编码设备10执行参照图4e描述的方法。

以下，提出用于使用VSP的方法。

根据实施例，当邻近块被编码为运动信息(例如，运动矢量)时，邻近块的候选基于运动信息被确定为帧间候选，例如，空间候选。当邻近块被编码为视差信息时，邻近块的候选基于视差信息被确定为视差候选。同时，当视差信息被包括时，确定的候选不仅可以是视差候选，还可以是视点间候选，或者可以是使用视差信息的另一类型的候选。当邻近块经由VSP被编码时，视差信息被存储并且邻近块的候选基于视差信息被确定为VSP候选。此时，基于视差信息的候选可以是视差候选或VSP候选，因此，为了进行区分，基于视差信息的候选可存储指示邻近块是否经由VSP被编码的信息。

换句话说，VSP被应用于块预测的合并模式或合并跳过模式。在合并模式或合并跳过模式下形成了合并候选列表，此时，当邻近块经由VSP被编码时，通过从邻近块推导VSP候选或通过将VSP候选插入到合并候选列表的特定位置处来使用VSP候选。为了确定邻近块是否经由VSP被编码，关于邻近块是否经由VSP被编码的标志信息可被存储，使得在形成合并候选列表时，VSP编码通过使用标志信息来确定。以下，这样的标志将被称为VSP标志。

根据另一实施例，在确定VSP候选时，可通过从一些邻近块推导VSP候选或通过将VSP候选插入到合并候选列表的特定位置处来使用VSP候选。例如，当仅针对当前块的左侧块推导VSP候选并且所述左侧块经由VSP被编码时，可通过从左侧块推导VSP候选或通过将VSP候选插入到合并候选列表的特定位置处来使用VSP候选。此外，如果运动信息被包括，则针对除左侧块以外的邻近块确定帧间候选。如果视差信息被包括，则确定视差候选。此时，当除左侧块以外的邻近块经由VSP被编码时，由于视差信息被存储，因此邻近块被确定为视差候选。在视差信息被包括时确定的候选不仅可以是视差候选，还可以是视点间候选，或者可以是使用视差信息的另一类型的候选。

根据另一实施例，在确定VSP候选时不使用邻近块，并且在形成合并候选列表时VSP候选总是被插入到相同的位置。此外，当邻近块具有运动信息时，确定帧间候选。当视差信息被包括时，确定视差候选。此时，当邻近块经由VSP被编码时，由于视差信息被存储，因此邻近块被确定为视差候选。同时，在视差信息被包括时确定的候选不仅可以是视差候选，还可以是视点间候选，或者可以是使用视差信息的另一类型的候选。

换句话说，为了在保持编码效率的同时减少复杂度，VSP候选不是从邻近块被推导出的，而是VSP候选被插入到合并候选列表的特定位置。在这种情况下，关于邻近块是否经由VSP被编码的信息不需要被存储，因此VSP标志的信息可被去除。因此，可节省用于存储邻近块中的VSP标志的额外的存储空间，并且可不使用用于确定邻近块是否经由VSP被编码的模块。此外，在保持编码效率和性能的同时可不存储VSP信息。

图5a是用于描述根据本公开的实施例的多视点视频解码设备通过使用VSP标志将VSP候选添加到合并候选列表的处理的示图。在本实施例中，合并候选列表可包括下述列表：所述列表包括用于搜索用于与相邻数据单元合并的合并模式下的参考块并进行预测的合并候选块、各种编码工具、各种编码模式。合并候选列表可包括诸如视点间候选、空间候选、视差候选、时间候选和VSP候选的候选。在这点上，视差候选是从推导出的视差构造的用于视差矢量补偿预测的候选。合并候选的类型不限于以上候选，可根据用于预测的方法添加各种类型合并候选。

参照图5a，根据本公开的实施例的合并候选列表可包括例如诸如视点间候选、空间候选、视差候选、时间候选和VSP候选的候选之中的六个候选。候选的数量不限于六个，可根据使用的视频编解码器分配等于或大于一的任意数。

以下，描述基于候选之间的优先级将VSP候选添加到合并候选列表的处理。多视点视频解码设备20可通过参考VSP标志确定特定块是否在VSP模式下被编码。

多视点视频解码设备20确定是否将视点间候选添加到合并候选列表。

多视点视频解码设备20确定是否将空间候选之中的左侧候选添加到将被包括在合并候选列表中的候选。如果左侧候选块无法被使用(如果左侧候选块是帧边界)，则左侧候选不被添加，如果左侧候选块在帧内预测模式下被编码(如果不存在运动信息)，则左侧候选不被添加。如果左侧候选块在VSP模式下被编码并且VSP候选先前没有被添加，则多视点视频解码设备20添加用于左侧候选块的VSP候选。

多视点视频解码设备20执行与对左侧候选执行的处理相同的处理从而以从上侧候选和右上侧候选的顺序确定是否将候选添加到将被包括在合并候选列表中的候选。如果上侧候选块无法被使用，则上侧候选不被添加。如果上侧候选块在帧内预测模式下被编码，则上侧候选不被添加。如果上侧候选块在VSP模式下被编码并且VSP候选先前没有被添加，则多视点视频解码设备20添加用于上侧候选块的VSP候选。如果右上侧候选块无法被使用，则右上侧候选不被添加。如果右上侧候选块在帧内预测模式下被编码，则右上侧候选不被添加。如果右上侧候选块在VSP模式下被编码并且VSP模式先前没有被添加，则多视点视频解码设备20添加用于右上侧候选块的VSP候选。

多视点视频解码设备20根据优先级确定是否将视差候选添加到合并候选列表。

多视点视频解码设备20依次对空间候选之中的左下侧候选和左上侧候选执行所述相同的处理，以确定是否依次将左下侧候选和左上侧候选添加到将被包括在合并候选列表中的候选。如果候选的数量小于5，则多视点视频解码设备20添加左下侧候选。如果左下侧候选块无法被使用，则左下侧候选不被添加。如果左下侧候选块在帧内预测模式下被编码，则左下侧候选不被添加。如果左下侧候选块在VSP模式下被编码并且VSP候选先前没有被添加，则多视点视频解码设备20添加用于左下侧候选块的VSP候选。

如果候选的数量小于5，则多视点视频解码设备20添加左上侧候选。如果左上侧候选块无法被使用，则左下侧候选不被添加。如果左上侧候选块在帧内预测模式下被编码，则左下侧候选不被添加。如果左上侧候选块在VSP模式下被编码并且VSP候选先前没有被添加，则多视点视频解码设备20添加用于左上侧候选块的VSP候选。

如果候选的数量小于5并且VSP候选先前没有被添加，则多视点视频解码设备20根据优先级确定是否添加用于当前块的VSP候选。

同时，如果候选的数量小于6，则多视点视频解码设备20根据优先级确定是否将与当前块处于相同的位置的参考PU的块添加到的合并候选列表候选作为时间候选。如果在相同位置处的时间候选无法被使用，则不使用时间候选。如果在相同位置处的时间候选块在帧内预测模式下被编码，则时间候选不被添加。

因此，根据本公开的实施例，多视点视频解码设备20可基于邻近块是否经由VSP被编码来添加用于邻近块的VSP候选。在图5a中，如果VSP候选先前没有被添加，则添加VSP候选，从而仅增加一个VSP候选，但添加的VSP候选的数量可不限于一个。例如，当邻近块经由VSP被编码时，VSP候选可总是被添加，从而添加若干VSP候选。此外，在添加合并候选时，确定合并候选的当前数量是否小于5或6，但合并候选的当前数量可不限于此，并可被设置为至少一个。

图5b是用于描述根据本公开的另一示例性实施例的由多视点视频解码设备在无需使用VSP标志的情况下基于候选之间的优先级将VSP候选添加到合并候选列表的处理的示图。

多视点视频解码设备20确定是否将来自空间候选的左侧候选添加到将被包括在合并候选列表中的候选。如果左侧候选块无法被使用(如果左侧候选块是帧边界)，则左侧候选不被添加。如果左侧候选块在帧内预测模式下被编码(如果不存在运动信息)，则左侧候选不被添加。

多视点视频解码设备20依次对上侧候选和右上侧候选执行与对左侧候选执行的所述相同的处理，以确定是否将上侧候选和右上侧候选添加到将被包括在合并候选列表中的候选。如果上侧候选块无法被使用，则上侧候选不被添加。如果上侧候选块在帧内预测模式下被编码，则上侧候选不被添加。如果右上侧候选块无法被使用，则不使用右上侧候选。如果右上侧候选块在帧内预测模式下被编码，则右上侧候选不被添加。

多视点视频解码设备20依次对空间候选之中的左下侧候选和左上侧候选执行所述相同的处理，以确定是否将左下侧候选和左上侧候选添加到将被包括在合并候选列表中的候选。当候选的数量小于5时，多视点视频解码设备20添加左下侧候选。如果左下侧候选块无法被使用，则左下侧候选不被添加。如果左下侧候选块在帧内预测模式下被编码，则左下侧候选不被添加。

当候选的数量小于5时，多视点视频解码设备20添加左上侧候选。如果左上侧候选块无法被使用，则左上侧候选不被添加。如果左上侧候选块在帧内预测模式下被编码，则左上侧候选不被添加。

当候选的数量小于5并且VSP候选先前没有被添加时，多视点视频解码设备20根据优先级确定是否添加用于当前块的VSP候选。

同时，当候选的数量小于6时，多视点视频解码设备20根据优先级确定是否将与当前块处于相同的位置的参考PU的块添加到合并候选列表候选作为时间候选。如果在相同位置处的时间候选无法被使用，则时间候选不被添加。如果在相同位置处的时间候选块在帧内预测模式下被编码，则时间候选不被添加。

因此，根据本公开的另一实施例，由于不确定邻近块是否经由VSP被编码，因此多视点视频解码设备20可不存储VSP标志。此外，由于仅用于当前块的VSP候选被使用，因此VSP候选可被添加为具有固定优先级的合并候选。在图5b中，如果VSP候选先前没有被添加，则添加VSP候选，但如果当前块经由VSP被编码，则VSP候选可总是被添加。在图5b中，仅确定是否添加用于邻近块的空间候选，而邻近块的编码信息可以是任意类型的信息(诸如，运动信息或视差信息)，因此，用于邻近块的各种类型的候选(诸如，空间候选、视差候选和视点间候选)可被添加为合并候选。此外，当合并候选被添加时，确定合并候选的当前数量是否小于5或6，但合并候选的当前数量不限于此并且可以是至少一个。

同时，尽管以上描述了由多视点视频解码设备20执行的示例，但本领域的普通技术人员将理解也可由多视点视频编码设备10执行参照图5描述的方法。

图6a示出用于描述根据本公开的实施例的将VSP候选添加到合并候选列表的处理的伪码。

参照图6a，“extMergeCandList[i++]”是指示合并候选列表的指令。条件句依次被执行，因此条件句的顺序可指示合并候选的优先级。根据是否满足条件，基于条件句的顺序确定合并候选是否将被包括在合并候选列表中。假设多视点视频解码设备20对用于当前VSP候选的条件句61进行处理。包括在条件句61中的“availableFlagVSP”是指示当前预测单元是否可使用VSP编码工具被解码的标志。“availableFlagVSP”确定VSP编码工具可用于当前视点(“view_synthesis_pred_flag[nuhlayerid]”)，如果当前预测单元可使用VSP编码工具被预测解码，则“availableFlagVSP”变为1，从而多视点视频解码设备20确定当前预测单元可使用VSP编码工具被解码。“ic_flag”是指示是否对当前编码单元执行亮度补偿的标志。“iv_res_pred_weight_idx”指示在当前编码单元中使用了视点间残差预测的情况下的加权因子的索引。如果“iv_res_pred_weight_idx”为0，则这意味着在当前编码单元中不使用残差预测。同时，NumExtraMergeCand指示合并候选列表中将基本包括的候选的数量中的将额外包括的候选的数量。例如，根据视点间预测是否被使用来确定NumExtraMergeCand，如果确定视点间预测被使用，则NumExtraMergeCand可被确定为1，并且将被包括在合并候选列表中的候选的数量增加1。

因此，当确定当前预测单元可使用VSP编码工具被解码(avilableFlag)，不对当前编码单元执行亮度补偿(！ic_flag)，在当前编码单元不使用残差预测(iv_res_pred_weight_idx＝＝0)，并且可被包括在合并候选列表中的合并候选的数量没有被超过(i<5+NumExtraMergeCand)时，多视点视频解码设备20确定VSP编码工具(或编码模式)被添加到合并候选列表(extMergeCandList[i++]＝VSP)。

在这点上，i表示合并候选列表的索引。也就是说，i相应于合并候选列表上的位置。在当前索引小于合并候选列表的最大候选数量时，多视点视频解码设备20将VSP候选添加到合并候选列表(extMergeCandList[i++]＝VSP)。其后，通过增加索引(i++)来确定下一候选是否将被添加到合并候选列表。

因此，不论其他空间候选或时间候选的编码信息如何，VSP候选的优先级都是固定的。图6b示出用于描述根据本公开的实施例的将VSP候选添加到合并候选列表的处理的伪码。

以上参照图6a描述了一些参数，因此省略冗余的参数的详细描述。参照图6b，MaxNumMergCand是指可被包括在合并候选列表中的最大合并候选的数量。假设在确定是否所有合并候选将被包括在合并候选列表之后处理条件句62。如果确定可使用VSP编码工具对当前预测单元进行解码(avilableFlagVSP)，不对当前编码单元执行亮度补偿(！ic_flag)，并且在当前编码单元中不使用残差预测(iv_res_pred_weight_idx＝＝0)，则将4分配给参数j。本领域普通技术人员将容易地理解参数j的值不必限于4并可变化。

如果参数j小于最大合并候选的数量，则while条件句(j<MaxNumMergeCnad)的内容被重复地处理。在回顾在while条件句内处理的处理时，如果满足条件，则包括在索引j-1中的候选作为下一候选被分配到合并候选列表(extMergeCandList[j]＝extMergeCandList[j-1])。例如，当j＝4时，合并候选列表的排列中的由索引3指示的排列内的空间中的合并候选被分配到与索引4相应的排列内的空间(extMergeCandList[4]＝extMergeCandList[3])。也就是说，在合并候选列表的由j-1指示的排列内的候选被分配到合并候选列表的由j指示的排列内的空间。如果满足值j，则值j增加一(j++)，并且再次确定是否满足while条件句的条件。该处理重复进行直到不满足while条件状态的条件。总之，在while条件状态中，已包括在合并候选列表的由从索引3开始的MaxNumMergeCand-2指示的排列内的空间中的合并候选被向后移动一空间，并因此被分配给合并候选列表的由从索引4开始的MaxNumMergeCand-1指示的排列内的空间。最后包括在合并候选列表的排列中的合并候选被分配到的空间经由合并候选列表中的由前一索引指示的候选被分配，因此最后包括在合并候选列表的排列中的合并候选不再被包括在合并候选列表的排列中。

如果随后while条件句未被满足，则while条件句的内容不被处理，并且VSP候选被分配到由索引3指示的合并候选列表排列extMergeCandList中的空间。

因此，尽管最大数量的合并候选先前被包括在合并候选列表的排列中，但VSP候选被分配到合并候选列表的由索引3指示的排列中的空间，包括在该空间中的合并候选和大于索引3的合并候选被分配到合并候选列表的由下一索引指示的排列中的空间，合并候选列表的排列的最后的候选不再被包括在合并候选列表的排列中。如上所述执行伪码，因此多视点视频解码设备20在合并候选列表中允许VSP候选总是在固定位置(合并候选列表的由索引3指示的排列中的空间)，而不论空间候选或时间候选的编码信息如何。

图6c示出用于指示根据本公开的示例性实施例的VSP候选模式标志的伪码。

由于已参照图6a和图6b描述了关于一些参数的细节，因此省略了冗余的参数的详细描述。参照图6c，vspModeFlag是指示当前PU是否通过使用VSP被编码的标志。mergeCandIsVspFlag是指示合并候选是否是VSP合并候选的标志。在图6c中，当确定合并候选是VSP合并候选(mergeCandIsVspFlag)，在当前预测编码单元中不执行亮度补偿(！ic_flag)，在当前编码单元中不使用残差预测(iv_res_pred_weight_idx＝＝0)，并且可通过使用VSP编码工具对当前预测单元进行解码(avilableFlagVSP)时，可将vspModeFlag设置为指示当前PU通过使用VSP被编码。

同时，尽管以上描述了由多视点视频解码设备20使用VSP执行的示例，但本领域的普通技术人员将理解，也可由多视点视频编码设备10执行参照图6a至图6c描述的方法。

以上参照图1a至图6c描述了使用VSP候选的多视点视频编码设备10和多视点视频解码设备20。基于根据各种实施例的多视点视频编码设备10和多视点视频解码设备20，在当前块在合并模式下被预测编码时，VSP候选可以是根据固定优先级的合并候选，而不管相邻数据单元的编码信息如何。此外，可不存储指示邻近块是否通过使用VSP被编码的信息(VSP标志)。此外，多视点视频编码设备10和多视点视频解码设备20可基于用于邻近块的编码信息来确定用于邻近块的合并候选的类型。

在根据实施例的多视点视频编码设备10和根据实施例的多视点视频解码设备20中，如上所述，视频数据可被划分为具有树结构的编码单元，并且编码单元、预测单元和变换单元用于对编码单元进行层间预测或帧间预测。以下，将参照图7至图19描述根据实施例的基于具有树结构的编码单元和变换单元的视频编码方法和设备以及视频解码方法和设备。

基本上，在针对多视点视频的编码/解码期间，可单独地执行针对第一视点图像的编码/解码处理和针对第二视点图像的编码/解码处理。也就是说，当对多视点视频执行视点间预测时，可相互参考单视点视频的编码/解码结果，但单独的编码/解码处理针对各个单视点视频被执行。

为了便于描述，由于对单视点视频执行将参照图7至图19描述的基于树结构的编码单元的视频编码处理和视频解码处理，因此将描述帧间预测和运动补偿。然而，如以上参照图1a至图6所描述的，基本视点图像与第二视点图像之间的视点间预测和补偿被执行以对视频流进行编码/解码。

因此，为了使根据实施例的多视点视频编码设备10基于具有树结构的编码单元对多视点视频进行编码，根据实施例的多视点视频编码设备10可包括与多视点视频的视点的数量一样多的图7的视频编码设备100，以便根据每个单层视频执行视频编码，从而控制每个视频编码设备100对分配的单层视频进行编码。此外，多视点视频编码设备10可通过使用每个视频编码设备100的单个视点的编码结果来执行视点间预测。因此，多视点视频编码设备10可产生包括根据视点的编码结果的基本视点视频流和第二视点视频流。

类似地，为了使根据实施例的多视点视频解码设备20基于具有树结构的编码单元对多视点视频进行解码，多视点视频解码设备10可包括与多视点视频的视点的数量一样多的图8的视频解码设备200，以便针对接收到的第一视点视频流和接收到的第二视点视频流执行根据视点的视频解码，从而控制每个视频解码设备200对分配的单视点视频进行解码。此外，多视点视频解码设备200可通过使用每个视频解码设备200的单个视点的解码结果来执行视点间补偿。因此，多视点视频解码设备20可产生根据视点重建的第一视点图像和第二视点图像。

图7是根据本公开的实施例的基于根据树结构的编码单元的视频编码设备100的框图。

涉及基于根据树结构的编码单元的视频预测的根据实施例的视频编码设备100包括编码单元确定器120和输出单元130。以下，为便于描述，涉及基于根据树结构的编码单元的视频预测的根据实施例的视频编码设备100将被简称为“视频编码设备100”。

编码单元确定器120可基于图像的当前画面的最大编码单元来划分当前画面，其中，最大编码单元是具有最大尺寸的编码单元。如果当前画面大于最大编码单元，则可将当前画面的图像数据划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128、256×256等的数据单元，其中，数据单元的形状是宽度和长度为2的若干次方的正方形。

根据实施例的编码单元可由最大尺寸和深度表征。深度表示编码单元从最大编码单元被空间划分的次数，并且随着深度加深，根据深度的较深层编码单元可从最大编码单元被划分到最小编码单元。最大编码单元的深度为最高深度，最小编码单元的深度为最低深度。由于随着最大编码单元的深度加深，与每个深度相应的编码单元的尺寸减小，因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。

如上所述，当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元，并且每个最大编码单元可包括根据深度被划分的较深层编码单元。由于根据深度对根据实施例的最大编码单元进行划分，因此可根据深度对包括在最大编码单元中的空间域的图像数据进行分层分类。

可预先确定编码单元的最大深度和最大尺寸，其中，所述最大深度和最大尺寸限制最大编码单元的高度和宽度被分层划分的总次数。

编码单元确定器120对通过根据深度对最大编码单元的区域进行划分而获取的至少一个划分区域进行编码，并且根据所述至少一个划分区域来确定用于输出最终编码的图像数据的深度。换句话说，编码单元确定器120通过根据当前画面的最大编码单元以根据深度的较深层编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定最终深度。将确定的最终深度和根据确定的编码深度的编码的图像数据输出到输出单元130。

基于与等于或低于最大深度的至少一个深度相应的较深层编码单元，对最大编码单元中的图像数据进行编码，并且基于每个较深层编码单元比较对图像数据进行编码的结果。在对较深层编码单元的编码误差进行比较之后，可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个最终深度。

随着编码单元根据深度而被分层地划分并且随着编码单元的数量增加，最大编码单元的尺寸被划分。另外，即使在一个最大编码单元中编码单元与同一深度相应，仍通过分别测量每个编码单元的图像数据的编码误差来确定是否将与同一深度相应的每个编码单元划分到更低深度。因此，即使当图像数据被包括在一个最大编码单元中时，编码误差仍可根据所述一个最大编码单元中的区域而不同，因此最终深度可根据图像数据中的区域而不同。因此，可在一个最大编码单元中确定一个或更多个最终深度，并且可根据至少一个最终深度的编码单元来对最大编码单元的图像数据进行划分。

因此，根据实施例的编码单元确定器120可确定包括在最大编码单元中的具有树结构的编码单元。根据实施例的“具有树结构的编码单元”包括最大编码单元中包括的所有较深层编码单元之中的与确定为最终深度的深度相应的编码单元。可根据最大编码单元的同一区域中的深度来分层地确定最终深度的编码单元，并可在不同区域中独立地确定最终深度的编码单元。类似地，可与另一区域中的最终深度独立地确定当前区域中的最终深度。

根据实施例的最大深度是与从最大编码单元到最小编码单元的划分次数相关的索引。根据实施例的第一最大深度可表示从最大编码单元到最小编码单元的总划分次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如，当最大编码单元的深度是0时，对最大编码单元划分一次的编码单元的深度可被设置为1，对最大编码单元划分两次的编码单元的深度可被设置为2。这里，如果最小编码单元是最大编码单元被划分四次的编码单元，则存在深度0、1、2、3和4的深度等级，并且因此第一最大深度可被设置为4，第二最大深度可被设置为5。

可根据最大编码单元执行预测编码和变换。还根据最大编码单元，基于根据等于或小于最大深度的深度的较深层编码单元来执行预测编码和变换。

由于每当根据深度对最大编码单元进行划分时，较深层编码单元的数量增加，因此对随着深度加深而产生的所有较深层编码单元执行包括预测编码和变换的编码。为了便于描述，在最大编码单元中，现在将基于当前深度的编码单元来描述预测编码和变换。

根据实施例的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。

例如，视频编码设备100不仅可选择用于对图像数据进行编码的编码单元，还可选择不同于编码单元的数据单元，以便对编码单元中的图像数据执行预测编码。

为了在最大编码单元中执行预测编码，可基于根据实施例的与最终深度相应的编码单元(即，基于不再被划分为与更低深度相应的编码单元的编码单元)来执行预测编码。以下，不再被划分且成为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元而获取的分区可包括预测单元或通过对预测单元的高度和宽度中的至少一个进行划分而获取的数据单元。分区是编码单元的预测单元被划分的数据单元，并且预测单元可以是与编码单元具有相同的尺寸的分区。

例如，当2N×2N(其中，N是正整数)的编码单元不再被划分并成为2N×2N的预测单元时，分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。根据实施例的分区模式的示例包括通过对预测单元的高度或宽度进行对称地划分而获取的对称分区、通过对预测单元的高度或宽度进行非对称地划分(诸如，1：n或n:1)而获取的分区、通过对预测单元进行几何地划分而获取的分区、以及具有任意形状的分区。

预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外，可仅对2N×2N的分区执行跳过模式。可对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。

根据实施例的视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与编码单元不同的数据单元，来对编码单元中的图像数据执行变换。为了在编码单元中执行变换，可基于具有小于或等于编码单元的尺寸的变换单元来执行变换。例如，变换单元可包括帧内模式的数据单元和帧间模式的变换单元。

根据实施例，以与编码单元根据树结构被划分的方式类似的方式，编码单元中的变换单元可被递归地划分为更小尺寸的区域。因此，可基于根据变换深度的具有树结构的变换单元，对编码单元中的残差数据进行划分。

还可在根据实施例的变换单元中设置变换深度，其中，变换深度指示通过对编码单元的高度和宽度进行划分而达到变换单元的划分次数。例如，在2N×2N的当前编码单元中，当变换单元的尺寸是2N×2N时，变换深度可以是0，当变换单元的尺寸是N×N时，变换深度可以是1，当变换单元的尺寸是N/2×N/2时，变换深度可以是2。换句话说，可根据变换深度设置具有树结构的变换单元。

根据深度的划分信息不仅需要关于深度的信息，还需要关于与预测编码和变换相关的信息。因此，编码单元确定器120不仅确定具有最小编码误差的深度，还确定预测单元中的分区模式、根据预测单元的预测模式以及用于变换的变换单元的尺寸。

稍后将参照图9至图19详细描述根据实施例的最大编码单元中的根据树结构的编码单元以及确定预测单元/分区和变换单元的方法。

编码单元确定器120可通过使用基于拉格朗日乘数的率失真优化来测量根据深度的较深层编码单元的编码误差。

输出单元130在比特流中输出最大编码单元的图像数据和根据深度的划分信息，其中，所述最大编码单元的图像数据基于由编码单元确定器120确定的至少一个深度而被编码。

可通过对图像的残差数据进行编码来获取编码的图像数据。

根据深度的划分信息可包括关于编码深度的信息、关于预测单元中的分区模式的信息、关于预测模式的信息和关于变换单元的划分的信息。

可通过使用根据深度的划分信息来定义关于最终深度的信息，其中，根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是深度，则对当前编码单元进行编码，因此可将划分信息定义为不将当前编码单元划分到更低深度。可选择地，如果当前编码单元的当前深度不是深度，则对更低深度的编码单元执行编码，并因此可将划分信息定义为对当前编码单元进行划分以获取更低深度的编码单元。

如果当前深度不是深度，则对被划分到更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中，因此对更低深度的每个编码单元重复执行编码，并且因此可对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树结构的编码单元，并且针对具有深度的编码单元确定至少一条划分信息，因此可针对一个最大编码单元确定至少一条划分信息。另外，由于根据深度对最大编码单元的图像数据进行分层划分，因此最大编码单元的图像数据的深度可根据位置而不同，因此可针对图像数据设置深度和划分信息。

因此，根据实施例的输出单元130可将关于相应深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。

根据实施例的最小单元是通过将构成最低深度的最小编码单元划分为4份而获取的正方形数据单元。可选择地，根据实施例的最小单元可以是可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大正方形数据单元。

例如，通过输出单元130输出的编码信息可被分类为根据较深层编码单元的编码信息和根据预测单元的编码信息。根据较深层编码单元的编码信息可包括关于预测模式的信息和关于分区尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息、以及关于帧内模式的插值方法的信息。

根据画面、条带或GOP定义的关于编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流的头、序列参数集或画面参数集中。

还可通过比特流的头、序列参数集或画面参数集来输出关于针对当前视频允许的变换单元的最大尺寸的信息、以及关于变换单元的最小尺寸的信息。输出单元130可对与预测相关的参考信息、预测信息和条带类型信息进行编码并输出。

在根据最简单的实施例的视频编码设备100中，较深层编码单元可以是通过将更高深度(更高一层)的编码单元的高度或宽度划分成两份而获取的编码单元。换句话说，在当前深度的编码单元的尺寸是2N×2N时，更低深度的编码单元的尺寸是N×N。另外，尺寸为2N×2N的具有当前深度的编码单元可包括最多4个具有更低深度的编码单元。

因此，视频编码设备100可基于考虑当前画面的特征而确定的最大编码单元的尺寸和最大深度，通过针对每个最大编码单元确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外，由于可通过使用各种预测模式和变换中的任意一个对每个最大编码单元执行编码，因此可考虑各种图像尺寸的编码单元的特征来确定最优编码模式。

因此，如果以传统宏块对具有高分辨率或大数据量的图像进行编码，则每个画面的宏块的数量极度增加。因此，针对每个宏块产生的压缩信息的条数增加，因此难以发送压缩的信息，并且数据压缩效率降低。然而，通过使用根据实施例的视频编码设备100，由于在考虑图像的尺寸的同时增加编码单元的最大尺寸，并且在考虑图像的特征的同时调整编码单元，因此可提高图像压缩效率。

以上参照图1a描述的多视点视频编码设备10可包括与视点数一样多的视频编码设备100，以便根据多视点视频中的视点对单视点图像进行编码。例如，多视点视频编码设备10可包括一个第一视点的视频编码设备100以及与第二视点的数量一样多的视频编码设备100。

当视频编码设备100对第一视点图像进行编码时，编码单元确定器120可针对每个最大编码单元根据具有树结构的编码单元确定用于帧间预测的预测单元，并可根据预测单元执行帧间预测。

即使在视频编码设备100对第二视点图像进行编码时，编码单元确定器120可针对每个最大编码单元确定具有树结构的编码单元和预测单元，并可根据预测单元执行帧间预测。

视频编码设备100可对第一视点图像和第二视点图像之间的亮度差进行编码，以便补偿亮度差。然而，可根据编码单元的编码模式确定是否执行亮度补偿。例如，可仅对2Nx2N的预测单元执行亮度补偿。

图8是根据各种实施例的基于根据树结构的编码单元的视频解码设备200的框图。

涉及基于具有树结构的编码单元的视频预测的根据实施例的视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。为了便于描述，涉及基于具有树结构的编码单元的视频预测的根据实施例的视频解码设备200将被简称为“视频编码设备200”。

用于根据实施例的视频解码设备200的解码操作的各种术语(诸如编码单元、深度、预测单元、变换单元和各种类型的划分信息)的定义与参照图7和视频编码设备100描述的定义相同。

接收器210接收并解析编码视频的比特流。图像数据和编码信息提取器220从解析的比特流针对每个编码单元提取编码的图像数据，并将提取的图像数据输出到图像数据解码器230，其中，编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头、序列参数集或画面参数集提取关于当前画面的编码单元的最大尺寸的信息。

另外，图像数据和编码信息提取器220从解析的比特流根据每个最大编码单元提取具有树结构的编码单元的最终深度和划分信息。提取的最终深度和划分信息被输出到图像数据解码器230。换句话说，比特流中的图像数据被划分为最大编码单元，使得图像数据解码器230针对每个最大编码单元对图像数据进行解码。

可针对至少一条深度信息设置根据最大编码单元的深度和划分信息，根据深度的划分信息可包括关于相应编码单元的分区模式的信息、关于预测模式的信息和关于变换单元的划分的信息。另外，根据深度的划分信息可被提取为深度信息。

由图像数据和编码信息提取器220提取的根据每个最大编码单元的深度和划分信息是这样的深度和划分信息：所述深度和划分信息被确定为在编码器(诸如，根据实施例的视频编码设备100)根据每个最大编码单元对根据深度的每个较深层编码单元重复地执行编码时产生最小编码误差。因此，视频解码设备200可通过根据产生最小编码误差的编码深度和编码模式对图像数据进行解码来重建图像。

由于根据实施例的关于深度和编码模式的编码信息可被分配给相应的编码单元、预测单元和最小单元中的预定数据单元，因此图像数据和编码信息提取器220可根据预定数据单元提取深度和划分信息。如果相应最大编码单元的深度和划分信息根据预定数据单元被记录，则可将被分配相同的深度和划分信息的预定数据单元推断为是包括在同一最大编码单元中的数据单元。

图像数据解码器230可基于根据最大编码单元的深度和划分信息，通过对每个最大编码单元中的图像数据进行解码来重建当前画面。换句话说，图像数据解码器230可基于提取出的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区模式、预测模式和变换单元的信息，对编码的图像数据进行解码。解码处理可包括预测(包含帧内预测和运动补偿)和逆变换。

图像数据解码器230可基于关于根据深度的编码单元的预测单元的分区模式和预测模式的信息，根据每个编码单元的分区和预测模式执行帧内预测或运动补偿。

此外，图像数据解码器230可针对每个编码单元读取关于根据树结构的变换单元的信息，以便基于每个编码单元的变换单元执行逆变换，以针对每个最大编码单元来进行逆变换。经过逆变换，可重建编码单元的空间域的像素值。

图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的深度。如果划分信息指示图像数据在当前深度中不再被划分，则当前深度是深度。因此，图像数据解码器230可通过使用用于与编码深度相应的每个编码单元的关于预测单元的分区模式的信息、关于预测模式的信息和关于变换单元的尺寸的信息，对当前最大编码单元中的编码数据进行解码。

换句话说，可通过观察被分配用于编码单元、预测单元和最小单元之中的预定数据单元的编码信息集来收集包含包括相同划分信息的编码信息的数据单元，并且收集的数据单元可被认为是将由图像数据解码器230以相同编码模式进行解码的一个数据单元。因此，可通过获取关于每个编码单元的编码模式的信息来对当前编码单元进行解码。

参照图2a描述的多视点视频解码设备20可包括与视点数一样多的视频解码设备200，以便对接收的第一视点图像流和第二视点图像流进行解码，从而重建第一视点图像和第二视点图像。

当第一视点图像流被接收时，视频解码设备200的图像数据解码器230可将由提取器220从第一视点图像流提取的第一视点图像的样点划分为最大编码单元的根据树结构的编码单元。图像数据解码器230可针对第一视点图像的样点的根据树结构的各个编码单元对用于帧间预测的各个预测单元执行运动补偿，以重建第一视点图像。

当第二视点图像流被接收时，视频解码设备200的图像数据解码器230可将由提取器220从第二视点图像流提取的第二视点图像的样点划分为最大编码单元的根据树结构的编码单元。图像数据解码器230可对第二视点图像的样点的用于帧间预测的各个预测单元执行运动补偿，从而重建第二视点图像。

提取器220可从比特流获取与第一视点图像和第二视点图像之间的亮度差相关的信息，以便补偿亮度差。然而，可根据编码单元的编码模式确定是否执行亮度补偿。例如，可仅对2Nx2N的预测单元执行亮度补偿。

视频解码设备200可获取与在对每个最大编码单元递归地执行编码时产生最小编码误差的编码单元有关的信息，并可使用所述信息来对当前画面进行解码。换句话说，可对每个最大编码单元中的被确定为合适的编码单元的具有树结构的编码单元进行解码。

因此，即使图像数据具有高分辨率和大数据量，也可通过使用合适的划分信息来有效地对图像数据进行解码和重建，其中，所述合适的划分信息是通过使用从编码器接收的关于最优编码模式的信息，根据图像数据的特性而被自适应地确定的。

图9是用于描述根据各种实施例的编码单元的概念的示图。

编码单元的尺寸可被表示为宽度×高度，并且可以是64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区，32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区，16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区，8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据310中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为2。在视频数据320中，分辨率为1920×1080，编码单元的最大尺寸为64，最大深度为3。在视频数据330中，分辨率为352×288，编码单元的最大尺寸为16，最大深度为1。图10中示出的最大深度表示从最大编码单元到最小解码单元的划分总次数。

如果分辨率高或数据量大，则编码单元的最大尺寸可能较大，从而不仅提高编码效率，而且准确地反映图像的特征。因此，具有比视频数据330更高分辨率的视频数据310和320的编码单元的最大尺寸可以是64。

由于视频数据310的最大深度是2，因此由于通过对最大编码单元划分两次，深度加深至两层，因此视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元和长轴尺寸为32和16的编码单元。由于视频数据330的最大深度是1，因此由于通过对最大编码单元划分一次，深度加深至一层，因此视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元和长轴尺寸为8的编码单元。

由于视频数据320的最大深度是3，因此由于通过对最大编码单元划分三次，深度加深至3层，因此视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元和长轴尺寸为32、16和8的编码单元。随着深度加深，可准确地表达详细信息。

图10是根据各种实施例的基于编码单元的图像编码器400的框图。

根据实施例的图像编码器400执行视频编码设备100的编码单元确定器120中对图像数据进行编码所需的操作。换句话说，帧内预测器420在当前帧405中根据预测单元对帧内模式下的编码单元执行帧内预测，帧间预测器415根据预测单元通过使用当前图像405和从重建画面缓存器410获取的参考图像对帧间模式下的编码单元执行帧间预测。当前图像405可被划分为最大编码单元，然后最大编码单元可被顺序编码。在这点上，可对将被划分为具有树结构的编码单元的最大编码单元进行编码。

通过从与当前图像405的编码的编码单元有关的数据去除从帧内预测器420或帧间预测器415输出的与每个模式的编码单元有关的预测数据来产生残差数据，并且所述残差数据根据变换单元通过变换器425和量化器430被输出为量化后的变换系数。量化后的变换系数通过反量化器445和逆变换器450被重建为空间域中的残差数据。重建的空间域中的残差数据被添加到从帧内预测器420或帧间预测器输出的每个模式的编码单元的预测数据，并因此被重建为当前图像405的编码单元的空间域中的数据。重建的空间域中的数据通过去块单元455和SAO执行器460被产生为重建的图像，并且重建的图像被存储在重建画面缓存器410中。重建画面缓存器410中存储的重建图像可被用作用于另一图像的帧间预测的参考图像。被变换器425和量化器430量化的变换系数可通过熵编码器435被输出为比特流440。

为了将根据实施例的图像编码器400应用于视频编码设备100，图像编码器400的所有元件(即，帧间预测器410、帧内预测器420、变换器425、量化器430、熵编码器435、反量化器445、逆变换器450、去块单元455和SAO执行器460)根据每个最大编码单元基于具有树结构的编码单元之中的每个编码单元执行操作。

具体地，帧内预测器420和帧间预测器415可在考虑当前最大编码单元的最大尺寸和最大深度的情况下确定具有树结构的编码单元之中的每个编码单元的分区模式和预测模式，变换器425可确定是否在具有树结构的编码单元之中的每个编码单元中划分具有四叉树结构的变换单元。

图11是根据各种实施例的基于编码单元的图像解码器500的框图。

熵解码器515从比特流505解析将被解码的编码图像数据和解码所需的编码信息。编码图像数据是量化后的变换系数，其中，残差数据是由反量化器520和逆变换器525从所述量化后的变换系数重建的。

帧内预测器540根据每个预测单元对帧内模式下的编码单元执行帧内预测。帧间预测器535通过使用从重建画面缓存器530获取的参考图像，针对每个预测单元对当前图像中的帧间模式下的编码单元执行帧间预测。

经过帧内预测器540和帧间预测器535的关于每个模式的编码单元的预测数据和残差数据被求和，并且因此关于当前图像405的编码单元的空间域中的数据可被重建，重建的空间域中的数据可通过去块单元545和SAO执行器550被输出为重建图像560。重建画面缓存器530中存储的重建图像可被输出为参考图像。

为了在视频解码设备200的图像数据解码器230中对图像数据进行解码，可执行根据实施例的图像解码器500的熵解码器515之后的操作。

为了将图像解码器500应用于根据实施例的视频解码设备200中，图像解码器500的所有元件(即，熵解码器515、反量化器520、逆变换器525、帧间预测器535、去块单元545和SAO执行器550)可针对每个最大编码单元基于具有树结构的编码单元执行操作。

具体地，帧内预测器540和帧间预测器535可针对根据树结构的编码单元中的每个编码单元确定分区和预测模式，逆变换器525可针对每个编码单元确定是否划分具有四叉树结构的变换单元。

图10的编码操作和图11的解码操作分别描述单层中的视频流编码操作和视频流解码操作。因此，如果图1a的多视点视频解码设备10对两个或更多个层的视频流进行编码，则可针对每个层包括图像编码器400。类似地，如果图2a的多视点视频解码设备20对两个或更多个层的视频流进行解码，则可针对每个层包括图像解码器500。

图12是示出根据各种实施例的根据深度的较深层编码单元以及分区的示图。

根据实施例的视频编码设备100和根据实施例的视频解码设备200使用分层编码单元以考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度，或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据编码单元的预定最大尺寸来确定根据深度的较深层编码单元的尺寸。

根据实施例，在编码单元的分层结构600中，编码单元的最大高度和最大宽度均是64，最大深度是3。在此情况下，最大深度是指编码单元从最大编码单元到最小编码单元被划分的总次数。由于深度沿着根据实施例的编码单元的分层结构600的垂直轴加深，因此较深层编码单元的高度和宽度均被划分。另外，预测单元和分区沿着分层结构600的水平轴被示出，其中，所述预测单元和分区是对每个较深层编码单元进行预测编码的基础。

换句话说，编码单元610是分层结构600中的最大编码单元，其中，深度为0，尺寸(即，高度乘宽度)为64×64。深度沿着垂直轴加深，存在尺寸为32×32且深度为1的编码单元620、尺寸为16×16且深度为2的编码单元630、尺寸为8×8且深度为3的编码单元640。尺寸为8×8且深度为3的编码单元640是最小编码单元。

编码单元的预测单元和分区根据每个深度沿着水平轴被排列。换句话说，如果尺寸为64×64且深度为0的编码单元610是预测单元，则可将预测单元划分成包括在编码单元610中的分区，即，尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614或尺寸为32×32的分区616。

类似地，可将尺寸为32×32且深度为1的编码单元620的预测单元划分成包括在编码单元620中的分区，即，尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626。

类似地，可将尺寸为16×16且深度为2的编码单元630的预测单元划分成包括在编码单元630中的分区，即，包括在编码度单元630中的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634和尺寸为8×8的分区636。

类似地，可将尺寸为8×8且深度为3的编码单元640的预测单元划分成包括在编码单元640中的分区，即，包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644和尺寸为4×4的分区646。

为了确定组成最大编码单元610的编码单元的至少一个深度，根据实施例的视频编码设备100的编码单元确定器120对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。

随着深度加深，包括具有相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如，需要四个与深度2相应的编码单元来覆盖包括在与深度1相应的一个编码单元中的数据。因此，为了根据深度比较对相同数据进行编码的结果，与深度1相应的编码单元和四个与深度2相应的编码单元均被编码。

为了针对多个深度之中的当前深度执行编码，可沿着分层结构600的水平轴，通过对与当前深度相应的编码单元中的每个预测单元执行编码，来针对当前深度选择最小编码误差。可选地，随着深度沿着分层结构600的垂直轴加深，可通过针对每个深度执行编码来比较根据深度的最小编码误差，以搜索最小编码误差。编码单元610中的具有最小编码误差的深度和分区可被选为编码单元610的深度和分区模式。

图13是用于描述根据各种实施例的编码单元和变换单元之间的关系的示图。

根据实施例的视频编码设备100或根据实施例的视频解码设备200针对每个最大编码单元，根据具有小于或等于最大编码单元的尺寸的编码单元对图像进行编码或解码。可基于不大于相应编码单元的数据单元来选择用于在编码期间进行变换的变换单元的尺寸。

例如，在根据实施例的视频编码设备100或根据实施例的视频解码设备200中，如果编码单元710的尺寸是64×64，则可通过使用尺寸为32×32的变换单元720来执行变换。

此外，可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的变换单元中的每一个执行变换，来对尺寸为64×64的编码单元710的数据进行编码，然后可选择具有最小编码误差的变换单元。

图14是用于描述根据各种实施例的与深度相应的编码单元的编码信息的示图。

根据实施例的视频编码设备100的输出单元130可对与编码深度相应的每个编码单元的关于分区模式的信息800、关于预测模式的信息810以及关于变换单元的尺寸的信息820进行编码，并将信息800、信息810以及信息820作为划分信息来发送。

信息800指示关于通过划分当前编码单元的预测单元而获取的分区的形状的信息，其中，分区是用于对当前编码单元进行预测编码的数据单元。例如，可将尺寸为2N×2N的当前编码单元CU_0划分成以下分区中的任意一个：尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。这里，关于分区类型的信息800被设置为指示以下分区之一：尺寸为2N×N的分区804、尺寸为N×2N的分区806和尺寸为N×N的分区808。

信息810指示每个分区的预测模式。例如，信息810可指示对由信息800指示的分区执行的预测编码的模式，即，帧内模式812、帧间模式814或跳过模式816。

信息820指示当对当前编码单元执行变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。

根据实施例的视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元，提取并使用用于解码的信息800、信息810和信息820。

图15是根据各种实施例的根据深度的较深层编码单元的示图。

划分信息可用来指示深度的改变。划分信息指示当前深度的编码单元是否被划分成更低深度的编码单元。

用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括以下分区模式的分区：尺寸为2N_0×2N_0的分区模式912、尺寸为2N_0×N_0的分区模式914、尺寸为N_0×2N_0的分区模式916和尺寸为N_0×N_0的分区模式918。图9仅示出了通过对称地划分预测单元910而获取的分区类型912至918，但是分区模式不限于此，并且预测单元910的分区可包括非对称分区、具有预定形状的分区和具有几何形状的分区。

根据每种分区模式，对尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区重复地执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为2N_0×2N_0的分区执行跳过模式下的预测编码。

如果在分区模式912至916中的一个分区模式中编码误差最小，则可不将预测单元910划分到更低深度。

如果在分区模式918中编码误差最小，则深度从0改变到1以在操作920中对分区模式918进行划分，并对深度为2且尺寸为N_0×N_0的编码单元930重复地执行编码来搜索最小编码误差。

用于对深度为1且尺寸为2N_1×2N_1(＝N_0×N_0)的编码单元930进行预测编码的预测单元940可包括以下分区模式的分区：尺寸为2N_1×2N_1的分区模式942、尺寸为2N_1×N_1的分区模式944、尺寸为N_1×2N_1的分区模式946以及尺寸为N_1×N_1的分区模式948。

如果在分区模式948中编码误差最小，则深度从1改变到2以在操作950中对分区类型948进行划分，并对深度为2且尺寸为N_2×N_2的编码单元960重复执行编码来搜索最小编码误差。

当最大深度是d时，根据每个深度的划分操作可被执行直到深度变成d-1时，并且划分信息可被编码直到深度是0到d-2之一时。换句话说，当编码被执行直到在与d-2的深度相应的编码单元在操作970中被划分之后深度是d-1时，用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括以下分区模式的分区：尺寸为2N_(d-1)×2N_(d-1)的分区模式992、尺寸为2N_(d-1)×N_(d-1)的分区模式994、尺寸为N_(d-1)×2N_(d-1)的分区模式996和尺寸为N_(d-1)×N_(d-1)的分区模式998。

可对分区模式992至998中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区重复地执行预测编码，以搜索具有最小编码误差的分区模式。

即使当分区模式998具有最小编码误差时，由于最大深度是d，因此深度为d-1的编码单元CU_(d-1)不再被划分到更低深度，用于构成当前最大编码单元900的编码单元的深度被确定为d-1，并且当前最大编码单元900的分区模式可被确定为N_(d-1)×N_(d-1)。此外，由于最大深度是d，因此不设置针对深度为d-1的编码单元952的划分信息。

数据单元999可以是用于当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过将具有最低深度的最小编码单元划分成4份而获取的正方形数据单元。通过重复地执行编码，根据实施例的视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度以确定深度，并将相应分区模式和预测模式设置为该深度的编码模式。

这样，在所有深度1至d中对根据深度的最小编码误差进行比较，并且具有最小编码误差的深度可被确定为深度。编码深度、预测单元的分区模式和预测模式可作为划分信息被编码并被发送。另外，由于编码单元从深度0被划分到深度，因此仅将深度的划分信息设置为0，并且将除了深度以外的深度的划分信息设置为1。

根据实施例的视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的深度和预测单元的信息，以对分区912进行解码。根据实施例的视频解码设备200可通过使用根据深度的划分信息，将划分信息为0的深度确定为深度，并且使用相应深度的划分信息来进行解码。

图16至图18是用于描述根据各种实施例的在编码单元、预测单元和变换单元之间的关系的示图。

编码单元1010是最大编码单元中的与由根据实施例的视频编码设备100确定的深度相应的具有树结构的编码单元。预测单元1060是每个编码单元1010的预测单元的分区，变换单元1070是每个编码单元1010的变换单元。

当在编码单元1010中最大编码单元的深度是0时，编码单元1012和1054的深度是1，编码单元1014、1016、1018、1028、1050和1052的深度是2，编码单元1020、1022、1024、1026、1030、1032和1048的深度是3，编码单元1040、1042、1044和1046的深度是4。

在预测单元1060中，通过划分编码单元1010中的编码单元来获取一些编码单元1014、1016、1022、1032、1048、1050、1052和1054。换句话说，编码单元1014、1022、1050和1054中的分区模式的尺寸是2N×N，编码单元1016、1048和1052中的分区模式的尺寸是N×2N，分区1032的分区模式的尺寸为N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。

在小于编码单元1052的数据单元中的变换单元1070中，对编码单元1052的图像数据执行变换或逆变换。另外，在尺寸和形状方面，变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052不同于预测单元1060中的编码单元1014、1016、1022、1032、1048、1050和1052。换句话说，根据实施例的视频编码设备100和视频解码设备200可对同一编码单元中的数据单元独立地执行帧内预测、运动估计、运动补偿、变换和逆变换。

因此，对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码来确定最优编码单元，从而可获取具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区模式的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表1示出可由根据实施例的视频编码设备100和视频解码设备200设置的编码信息。

[表1]

根据实施例的视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息，根据实施例的视频解码设备200的图像数据和编码信息提取器220可从接收到的比特流提取关于具有树结构的编码单元的编码信息。

划分信息指示是否将当前编码单元划分成更低深度的编码单元。如果当前深度d的划分信息是0，则当前编码单元不再被划分成更低深度的深度是深度，从而可针对深度来定义关于分区模式、预测模式和变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分，则对更低深度的四个划分编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一种。可在所有分区模式中定义帧内模式和帧间模式，可仅在尺寸为2N×2N的分区模式中定义跳过模式。

关于分区模式的信息可指示通过对称地划分预测单元的高度或宽度而获取的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区模式，以及通过非对称地划分预测单元的高度或宽度而获取的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的非对称分区模式。可通过按1:3和3:1来划分预测单元的高度来分别获取尺寸为2N×nU和2N×nD的非对称分区模式，可通过按1:3和3:1来划分预测单元的宽度来分别获取尺寸为nL×2N和nR×2N的非对称分区模式。

可将变换单元的尺寸设置成帧内模式下的两种类型和帧间模式下的两种类型。换句话说，如果变换单元的划分信息是0，则变换单元的尺寸可以为2N×2N，即当前编码单元的尺寸。如果变换单元的划分信息是1，则可通过对当前编码单元进行划分来获取变换单元。另外，如果尺寸为2N×2N的当前编码单元的分区模式是对称分区模式，则变换单元的尺寸可以为N×N，如果当前编码单元的分区模式是非对称分区模式，则变换单元的尺寸可以是N/2×N/2。

根据实施例，关于具有树结构的编码单元的编码信息可包括与深度相应的编码单元、预测单元和最小单元中的至少一个。与深度相应的编码单元可包括包含相同编码信息的预测单元和最小单元中的至少一个。

因此，通过比较邻近数据单元的编码信息来确定邻近数据单元是否被包括在与深度相应的同一编码单元中。另外，通过使用数据单元的编码信息来确定与深度相应的相应编码单元，并因此可确定最大编码单元中的深度的分布。

因此，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则可直接参考并使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。

可选地，如果基于邻近数据单元的编码信息来对当前编码单元进行预测，则使用数据单元的编码信息来搜索与当前编码单元邻近的数据单元，并可参考搜索到的邻近编码单元来对当前编码单元进行预测。

最大编码单元1300包括多个深度的编码单元1302、1304、1306、1312、1314、1316和1318。这里，由于编码单元1318是具有深度的编码单元，因此划分信息可被设置成0。可将关于尺寸为2N×2N的编码单元1318的分区模式的信息设置成以下分区模式中的一种：尺寸为2N×2N的分区模式1322、尺寸为2N×N的分区模式1324、尺寸为N×2N的分区模式1326、尺寸为N×N的分区模式1328、尺寸为2N×nU的分区模式1332、尺寸为2N×nD的分区模式1334、尺寸为nL×2N的分区模式1336和尺寸为nR×2N的分区模式1338。

变换单元的划分信息(TU尺寸标志)是一种类型的变换索引。与变换索引相应的变换单元的尺寸可根据编码单元的预测单元类型或分区模式而改变。

例如，当分区模式被设置为对称(即，分区模式1322、1324、1326或1328)时，如果变换单元的TU尺寸标志是0，则设置尺寸为2N×2N的变换单元1342，如果TU尺寸标志是1，则设置尺寸为N×N的变换单元1344。

当分区模式被设置成非对称(即分区模式1332、1334、1336或1338)时，如果TU尺寸标志是0，则设置尺寸为2N×2N的变换单元1352，如果TU尺寸标志是1，则设置尺寸为N/2×N/2的变换单元1354。

参照图19，TU尺寸标志是具有值0或1的标志，但是根据实施例的TU尺寸标志不限于1比特，并且变换单元可在TU尺寸标志从0增加时被分层划分具有树结构。变换单元的划分信息(TU尺寸标志)可以是变换索引的示例。

在这种情况下，可通过使用根据实施例的变换单元的TU尺寸标志以及变换单元的最大尺寸和最小尺寸来表示实际上已使用的变换单元的尺寸。根据实施例的视频编码设备100能够对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志进行编码的结果可被插入SPS。根据实施例的视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志来对视频进行解码。

例如，(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是32×32，则(a-1)当TU尺寸标志为0时，变换单元的尺寸可以是32×32，(a-2)当TU尺寸标志为1时，变换单元的尺寸可以是16×16，(a-3)当TU尺寸标志为2时，变换单元的尺寸可以是8×8。

作为另一示例，(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32，则(b-1)当TU尺寸标志为0时，变换单元的尺寸可以是32×32。这里，由于变换单元的尺寸不能够小于32×32，因此TU尺寸标志不能够被设置为除了0以外的值。

作为另一示例，(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标志为1，则TU尺寸标志可以是0或1。这里，TU尺寸标志不能够被设置为除了0或1以外的值。

因此，如果定义最大TU尺寸标志为“MaxTransformSizeIndex”，最小变换单元尺寸为“MinTransformSize”，并且当TU尺寸标志为0时的变换单元尺寸为“RootTuSize”，则可通过等式(1)来定义可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”：

CurrMinTuSize＝max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex))

…(1)

与可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”相比，当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可指示可在系统中选择的最大变换单元尺寸。在等式(1)中，“RootTuSize/(2^MaxTransformSizeIndex)”指示当TU尺寸标志为0时，变换单元尺寸“RootTuSize”被划分了与最大TU尺寸标志相应的次数时的变换单元尺寸，“MinTransformSize”指示最小变换尺寸。因此，“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”中较小的值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。

根据实施例，最大变换单元尺寸RootTuSize可根据预测模式的类型而改变。

例如，如果当前预测模式是帧间模式，则可通过使用以下的等式(2)来确定“RootTuSize”。在等式(2)中，“MaxTransformSize”指示最大变换单元尺寸，“PUSize”指示当前预测单元尺寸。

RootTuSize＝min(MaxTransformSize,PUSize)……(2)

也就是说，如果当前预测模式是帧间模式，则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸中较小的值。

如果当前分区单元的预测模式是帧内模式，则可通过使用以下的等式(3)来确定“RootTuSize”。在等式(3)中，“PartitionSize”指示当前分区单元的尺寸：

RootTuSize＝min(MaxTransformSize,PartitionSize)……(3)

也就是说，如果当前预测模式是帧内模式，则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸之中较小的值。

然而，根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅是示例，并且本公开不限于此。

根据以上参照图8至图19描述的基于具有树结构的编码单元的视频编码方法，可针对树结构的每个编码单元对空间域的图像数据进行编码。根据基于具有树结构的编码单元的视频解码方法，对每个最大编码单元执行解码来重建空间域的图像数据。因此，画面和作为画面序列的视频可被重建。重建的视频可由再现设备来再现，可存储在存储介质中，或可通过网络来发送。

根据本公开的实施例可被编写为计算机程序，并可实现在使用计算机可读记录介质执行程序的通用数字计算机中。计算机可读记录介质的示例包括磁存储介质(例如，ROM、软盘、硬盘等)和光学记录介质(例如，CD-ROM或DVD)等。

为便于描述，以上参照图1a至图19描述的多视点视频编码方法和/或视频编码方法将被统称为“本公开的视频编码方法”。另外，以上参照图1a至图20描述的多视点视频解码方法和/或视频解码方法将被称为“本公开的视频解码方法”。

此外，已参照图1a至图19描述的包括多视点视频编码设备10、视频编码设备100或图像编码器400的视频编码设备将被称为“本公开的视频编码设备”。另外，已参照图1a至图19描述的包括多视点视频解码设备20、视频解码设备200或图像解码器500的视频解码设备将被称为“本公开的视频解码设备”。

现在将详细描述根据本公开的实施例的存储程序的计算机可读记录介质(例如，盘26000)。

图20是根据各种实施例的存储程序的盘26000的物理结构的示图。作为存储介质的盘26000可以是硬盘驱动器、致密盘只读存储器(CD-ROM)盘、蓝光盘或数字多功能盘(DVD)。盘26000包括多个同心磁道Tr，每个同心磁道Tr沿盘26000的圆周方向被划分成特定数量的扇区Se。在根据实施例的盘26000的特定区域中，可分配并存储执行以上所描述的量化参数确定方法、视频编码方法和视频解码方法的程序。

现在将参照图22来描述使用存储用于执行如上所述的视频编码方法和视频解码方法的程序的存储介质来实现的计算机系统。

图21是通过使用盘26000来记录并读取程序的盘驱动器26800的示图。计算机系统27000可经由盘驱动器26800将执行本公开的视频编码方法和视频解码方法中的至少一个的程序存储在盘26000中。为了在计算机系统27000中运行存储在盘26000中的程序，可通过使用盘驱动器27000从盘26000读取程序并将程序发送到计算机系统26700。

执行本公开的视频编码方法和视频解码方法中的至少一个的程序不仅可被存储在图20或图21中示出的盘26000中，还可被存储在存储卡、ROM卡带或固态驱动器(SSD)中。

以下将描述应用以上所描述的视频编码方法和视频解码方法的系统。

图22是用于提供内容分发服务的内容供应系统11000的整体结构的示图。将通信系统的服务区域划分成预定尺寸的小区，并将无线基站11700、11800、11900和12000分别安装在这些小区中。

内容供应系统11000包括多个独立装置。例如，诸如计算机12100、个人数字助理(PDA)12200、视频相机12300和移动电话12500的多个独立装置经由互联网服务提供器11200、通信网络11400和无线基站11700、11800、11900和12000连接到互联网11100。

然而，内容供应系统11000不限于如图24中所示，并且装置可选择性地被连接到内容供应系统11000。多个独立装置可不经由无线基站11700、11800、11900和12000而直接连接到通信网络11400。

视频相机12300是能够捕捉视频图像的成像装置，例如，数字视频相机。移动电话12500可利用各种协议(例如，个人数字通信(PDC)、码分多址(CDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)和个人手持电话系统(PHS))中的至少一种通信方法。

视频相机12300可经由无线基站11900和通信网络11400连接到流服务器11300。流服务器11300允许经由视频相机12300从用户接收到的内容经由实时广播被流传输。可使用视频相机12300或流服务器11300来对从视频相机12300接收到的内容进行编码。通过视频相机12300捕捉到的视频数据可经由计算机12100被发送到流服务器11300。

通过相机12600捕捉到的视频数据也可经由计算机12100被发送到流服务器11300。与数码相机类似，相机12600是能够捕捉静止图像和视频图像两者的成像装置。可使用相机12600或计算机12100对通过相机12600捕捉到的视频数据进行编码。可将对视频执行编码和解码的软件存储在可由计算机12100访问的计算机可读记录介质(例如，CD-ROM盘、软盘、硬盘驱动器、SSD或存储卡)中。

如果视频数据通过内置在移动电话12500中的相机被捕捉到，则可从移动电话12500接收视频数据。

还可通过安装在视频相机12300、移动电话12500或相机12600中的大规模集成电路(LSI)系统来对视频数据进行编码。

根据实施例的内容供应系统11000可对由用户使用视频相机12300、相机12600、移动电话12500或另一成像装置所记录的内容数据(例如，在音乐会期间记录的内容)进行编码，并将编码后的内容数据发送到流服务器11300。流服务器11300可将编码后的内容数据以流传输内容的类型发送到请求内容数据的其它客户端。

客户端是能够对编码后的内容数据进行解码的装置，例如，计算机12100、PDA12200、视频相机12300或移动电话12500。因此，内容供应系统11000允许客户端接收并再现编码后的内容数据。此外，内容供应系统11000允许客户端实时接收编码后的内容数据并对编码后的内容数据进行解码和再现，从而能够进行个人广播。

包括在内容供应系统11000中的多个独立装置的编码和解码操作可类似于本公开的视频编码设备和视频解码设备的编码和解码操作。

现在将参照图23和图24更加详细地描述包括在根据实施例的内容供应系统11000中的移动电话12500。

图23示出根据各种实施例的应用本公开的视频编码方法和视频解码方法的移动电话12500的外部结构。移动电话12500可以是智能电话，所述智能电话的功能不受限，并且所述智能电话的大多数功能可被改变或扩展。

移动电话12500包括可与图21的无线基站12000交换射频(RF)信号的内部天线12510，并包括用于显示由相机12530捕捉到的图像或经由天线12510接收到的并被解码的图像的显示屏12520(例如，液晶显示器(LCD)或有机发光二极管(OLED)屏幕)。移动电话12500包括包含有控制按钮和触摸面板的操作面板12540。如果显示屏12520是触摸屏，则操作面板12540还包括显示屏12520的触摸感测面板。移动电话12500包括用于输出语音和声音的扬声器12580或另一类型的声音输出单元、以及用于输入语音和声音的麦克风12550或另一类型的声音输入单元。移动电话12500还包括用于捕捉视频和静止图像的相机12530，诸如电荷耦合器件(CCD)相机。移动电话12500还可包括：存储介质12570，用于存储通过相机12530捕捉到的、经由电子邮件接收到的、或根据各种方式获取的编码/解码数据(例如，视频或静止图像)；插槽12560，存储介质12570经由插槽12560被装入移动电话12500中。存储介质12570可以是闪存，例如，包括在塑料壳中的安全数字(SD)卡或电可擦除可编程只读存储器(EEPROM)。

图24示出根据本公开的实施例的移动电话12500的内部结构。为了系统地控制包括显示屏12520和操作面板12540的移动电话12500的部件，供电电路12700、操作输入控制器12640、图像编码单元12720、相机接口12630、LCD控制器12620、图像解码单元12690、复用器/解复用器12680、记录/读取单元12670、调制/解调单元12660和声音处理器12650经由同步总线12730被连接到中央控制器12710。

如果用户操作电源按钮，并从“电源关闭”状态设置为“电源开启”状态，则供电电路12700从电池组向移动电话12500的所有部件供电，从而将移动电话12500设置为处于操作模式。

中央控制器12710包括中央处理器(CPU)、ROM和RAM。

在移动电话12500将通信数据发送到外部的同时，在中央控制器12710的控制下，由移动电话12500产生数字信号。例如，声音处理器12650可产生数字声音信号，图像编码单元12720可产生数字图像信号，并且消息的文本数据可经由操作面板12540和操作输入控制器12640被产生。当数字信号在中央控制器12710的控制下被传送到调制/解调单元12660时，调制/解调单元12660对数字信号的频带进行调制，并且通信电路12610对频带调制后的数字声音信号执行数模转换(DAC)和频率转换。从通信电路12610输出的发送信号可经由天线12510被发送到语音通信基站或无线基站12000。

例如，当移动电话12500处于通话模式时，在中央控制器12710的控制下，经由麦克风12550获取的声音信号通过声音处理器12650被变换成数字声音信号。数字声音信号可经由调制/解调单元12660和通信电路12610被变换成发送信号，并可经由天线12510被发送。

当文本消息(例如，电子邮件)在数据通信模式下被发送时，文本消息的文本数据经由操作面板12540被输入，并经由操作输入控制器12640被发送到中央控制器12610。在中央控制器12610的控制下，文本数据经由调制/解调单元12660和通信电路12610被变换成发送信号，并经由天线12510被发送到无线基站12000。

为了在数据通信模式下发送图像数据，由相机12530捕捉到的图像数据经由相机接口12630被提供给图像编码单元12720。捕捉到的图像数据可经由相机接口12630和LCD控制器12620被直接显示在显示屏12520上。

图像编码单元12720的结构可与上述视频编码设备100的结构相应。图像编码单元12720可根据上述本公开的视频编码方法，将从相机12530接收到的图像数据变换为压缩和编码后的图像数据，并随后将编码后的图像数据输出到复用器/解复用器12680。在相机12530的记录操作期间，由移动电话12500的麦克风12550获取的声音信号可经由声音处理器12650被变换成数字声音数据，并且数字声音数据可被发送到复用器/解复用器12680。

复用器/解复用器12680对从图像编码单元12720接收到的编码后的图像数据与从声音处理器12650接收到的声音数据一起进行复用。对数据进行复用的结果可经由调制/解调单元12660和通信电路12610被变换成发送信号，然后可经由天线12510被发送。

当移动电话12500从外部接收到通信数据时，可对经由天线12510接收到的信号执行频率恢复和ADC以将信号变换成数字信号。调制/解调单元12660对数字信号的频带进行调制。根据频带调制后的数字信号的类型，将所述数字信号发送到视频解码单元12690、声音处理器12650或LCD控制器12620。

在通话模式下，移动电话12500对经由天线12510接收到的信号进行放大，并通过对放大后的信号执行频率转换和ADC来获取数字声音信号。在中央控制器12710的控制下，接收到的数字声音信号经由调制/解调单元12660和声音处理器12650被变换成模拟声音信号，并且模拟声音信号经由扬声器12580被输出。

当在数据通信模式下时，接收在互联网网站上访问的视频文件的数据，经由调制/解调单元12660将经由天线12510从无线基站12000接收到的信号输出为复用数据，并将复用数据发送到复用器/解复用器12680。

为了对经由天线12510接收到的复用数据进行解码，复用器/解复用器12680将复用数据解复用成编码后的视频数据流和编码后的音频数据流。经由同步总线12730，编码后的视频数据流和编码后的音频数据流分别被提供给视频解码单元12690和声音处理器12650。

图像解码单元12690的结构可与上述本公开的视频解码设备的结构相应。图像解码单元12690可通过使用上述本公开的视频解码方法，对编码后的视频数据进行解码来获取重建的视频数据，并经由LCD控制器12620将重建的视频数据提供给显示屏12520。

因此，可将在互联网网站上访问的视频文件的数据显示在显示屏12520上。同时，声音处理器12650可将音频数据变换成模拟声音信号，并将模拟声音信号提供给扬声器12580。因此，也可经由扬声器12580再现在互联网网站上访问的视频文件中包含的音频数据。

移动电话12500或另一类型的通信终端可以是包括本公开的视频编码设备和视频解码设备两者的收发终端，可以是仅包括本公开的视频编码设备的收发终端，或者可以是仅包括本公开的视频解码设备的收发终端。

根据本公开的通信系统不限于以上参照图24描述的通信系统。例如，图25示出根据各种实施例的采用通信系统的数字广播系统。根据实施例的图25的数字广播系统可通过使用本公开的视频编码设备和视频解码设备来接收经由卫星或地面网络发送的数字广播。

具体地，广播站12890通过使用无线电波将视频数据流发送到通信卫星或广播卫星12900。广播卫星12900发送广播信号，广播信号经由家用天线12860被发送到卫星广播接收器。在每个房屋中，可通过TV接收器12810、机顶盒12870或其它装置对编码后的视频流进行解码和再现。

当本公开的视频解码设备被实现在再现设备12830中时，再现设备12830可对记录在存储介质12820(诸如盘或存储卡)上的编码后的视频流进行解析和解码，以重建数字信号。因此，可在例如监视器12840上再现重建的视频信号。

在被连接到用于卫星/地面广播的天线12860或用于接收有线电视(TV)广播的线缆天线12850的机顶盒12870中，可安装本公开的视频解码设备。从机顶盒12870输出的数据也可被再现在TV监视器12880上。

作为另一示例，可将本公开的视频解码设备安装在TV接收器12810中，而不是机顶盒12870中。

具有合适的天线12910的汽车12920可接收从图23的卫星12900或无线基站11700发送的信号。可在安装在汽车12920中的汽车导航系统12930的显示屏上再现解码后的视频。

视频信号可由本公开的视频编码设备来编码，然后可被存储在存储介质中。具体地，可由DVD记录器将图像信号存储在DVD盘12960中，或可由硬盘记录器12950将图像信号存储在硬盘中。作为另一示例，可将视频信号存储在SD卡12970中。如果硬盘记录器12950包括根据实施例的本公开的视频解码设备，则记录在DVD盘12960、SD卡12970或另一存储介质上的视频信号可在TV监视器12880上被再现。

汽车导航系统12930可不包括图26的相机12530、相机接口12630和图像编码单元12720。例如，计算机12100和TV接收器12810可不包括在图26的相机12530、相机接口12630和图像编码单元12720中。

图26是示出根据各种实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构的示图。

本公开的云计算系统可包括云计算服务器14000、用户数据库(DB)14100、多个计算资源14200和用户终端。

响应于来自用户终端的请求，云计算系统经由数据通信网络(例如，互联网)提供多个计算资源14200的点播外包服务。在云计算环境下，服务提供商通过使用虚拟化技术组合位于不同的物理位置的数据中心处的计算资源，为用户提供想要的服务。服务用户不必将计算资源(例如，应用、存储器、操作系统(OS)和安全软件)安装在他/她自己的终端中以使用它们，但可在想要的时间点在通过虚拟化技术产生的虚拟空间中从服务中选择和使用想要的服务。

指定的服务用户的用户终端经由包括互联网和移动电信网络的数据通信网络被连接到云计算服务器14000。可从云计算服务器14000向用户终端提供云计算服务，特别是视频再现服务。用户终端可以是能够被连接到互联网的各种类型的电子装置，例如，桌上型PC14300、智能TV14400、智能电话14500、笔记本计算机14600、便携式多媒体播放器(PMP)14700、平板PC14800等。

云计算服务器14000可组合分布在云网络中的多个计算资源14200，并向用户终端提供组合的结果。所述多个计算资源14200可包括各种数据服务，并可包括从用户终端上载的数据。如上所述，云计算服务器14000可通过根据虚拟化技术组合分布在不同区域中的视频数据库来向用户终端提供想要的服务。

将关于已经订购云计算服务的用户的用户信息存储在用户DB14100中。用户信息可包括用户的登陆信息、地址、姓名和个人信用信息。用户信息还可包括视频的索引。这里，所述索引可包括已经被再现的视频的列表、正在被再现的视频的列表、之前正在被再现的视频的暂停点等。

可在用户装置之间共享存储在用户DB14100中的关于视频的信息。例如，当响应于来自笔记本计算机14600的请求将视频服务提供给笔记本计算机14600时，视频服务的再现历史被存储在用户DB14100中。当从智能电话14500接收到用于再现此视频服务的请求时，云计算服务器14000基于用户DB14100搜索并再现此视频服务。当智能电话14500从云计算服务器14000接收到视频数据流时，通过对视频数据流进行解码来再现视频的处理与以上参照图24描述的移动电话12500的操作类似。

云计算服务器14000可参考存储在用户DB14100中的想要的视频服务的再现历史。例如，云计算服务器14000从用户终端接收用于再现存储在用户DB14100中的视频的请求。如果此视频被再现过，则由云计算服务器14000执行的对此视频进行流传输的方法可根据来自用户终端的请求(即，根据是将从视频的起点还是从视频的暂停点开始再现视频)而不同。例如，如果用户终端请求从视频的起点开始再现视频，则云计算服务器14000将从视频的第一帧开始的视频的流数据发送到用户终端。如果用户终端请求从视频的暂停点开始再现视频，则云计算服务器14000将从与暂停点相应的帧开始的视频的流数据发送到用户终端。

在此情况下，用户终端可包括以上参照图1a至图20描述的本公开的视频解码设备。作为另一示例，用户终端可包括以上参照图1a至图19描述的本公开的视频编码设备。可选地，用户终端可包括以上参照图1a至图19描述的视频解码设备和视频编码设备两者。

以上参照图20至图26描述了以上参照图1a至图19描述的视频编码方法、视频解码方法、视频编码设备和视频解码设备的各种应用。然而，根据各种实施例的将已参照图1a至图19描述的视频编码方法和视频解码方法存储在存储介质中的方法或者将已参照图1a至图19描述的视频编码设备和视频解码设备实现在装置中的方法不限于以上参照图20至图26描述的实施例。

虽然已经参照本发明的实施例具体地示出和描述了本发明，但是本领域的普通技术人员将理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可作出形式和细节上的各种改变。实施例应仅被看作描述性意义，而不是限制的目的。因此，本发明的范围不由本发明的详细描述来限定，而由权利要求来限定，在所述范围内的所有不同将被解释为包括在本公开中。

Claims

1.一种多视点视频解码方法，包括：

确定正被解码的当前块的预测模式是否为合并模式；

当预测模式被确定为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；

通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，

其中，在形成合并候选列表的步骤中，用于确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

2.如权利要求1所述的多视点视频解码方法，其中，用于当前块的邻近块的合并候选的类型基于关于所述邻近块的编码的信息被确定并被添加到合并候选列表。

3.如权利要求1所述的多视点视频解码方法，其中，当关于当前块的邻近块的编码的信息是运动信息时，用于所述邻近块的合并候选被确定为空间候选并被添加到合并候选列表。

4.如权利要求1所述的多视点视频解码方法，其中，当关于当前块的邻近块的编码的信息是视差信息时，用于所述邻近块的合并候选被确定为视差候选并被添加到合并候选列表。

5.如权利要求1所述的多视点视频解码方法，其中，当关于当前块的邻近块的编码的信息是视差信息时，用于所述邻近块的合并候选被确定为视点间候选并被添加到合并候选列表。

6.如权利要求1所述的多视点视频解码方法，其中，在当前块的邻近块被编码为视点合成预测信息时，用于所述邻近块的合并候选被确定为视差候选并被添加到合并候选列表。

7.如权利要求1所述的多视点视频解码方法，其中，预测步骤包括：从合并候选列表获取在当前块中使用的合并索引，并通过使用由合并索引指示的合并候选来对当前块进行预测。

8.一种多视点视频编码方法，包括：

确定正被编码的当前块的预测模式是否为合并模式；

9.如权利要求8所述的多视点视频编码方法，其中，用于当前块的邻近块的合并候选的类型基于关于所述邻近块的编码的信息被确定并被添加到合并候选列表。

10.如权利要求8所述的多视点视频编码方法，其中，当关于当前块的邻近块的编码的信息是运动信息时，用于所述邻近块的合并候选被确定为空间候选并被添加到合并候选列表。

11.如权利要求8所述的多视点视频编码方法，其中，当关于当前块的邻近块的编码的信息是视差信息时，用于所述邻近块的合并候选被确定为视差候选并被添加到合并候选列表。

12.如权利要求8所述的多视点视频编码方法，其中，在当前块的邻近块被编码为视点合成预测信息时，用于所述邻近块的合并候选被确定为视差候选并被添加到合并候选列表。

13.一种多视点视频解码设备，包括：

模式确定器，被配置为确定正被解码的当前块的预测模式是否为合并模式；

合并候选列表形成器，被配置为当模式确定器确定预测模式为合并模式时，通过根据预定优先级将视点间候选、空间候选、视差候选、视点合成预测候选和时间候选中的至少一个添加为合并候选，形成合并候选列表；

预测器，被配置为通过从合并候选列表选择将用于对当前块进行预测的合并候选，对当前块进行预测，

其中，用于由合并候选列表形成器确定用于当前块的视点合成预测候选是否被添加为合并候选的优先级是固定的。

14.一种多视点视频编码设备，包括：

模式确定器，被配置为确定正被编码的当前块的预测模式是否为合并模式；

15.一种记录有用于执行权利要求1所述的多视点视频解码方法的程序的计算机可读记录介质。