CN101658037A

CN101658037A - 视频编码和解码中的铺砌

Info

Publication number: CN101658037A
Application number: CN200880011698A
Authority: CN
Inventors: 帕文·拜哈斯·潘迪特; 尹鹏; 田东
Original assignee: Thomson Licensing SAS
Current assignee: Dolby International AB
Priority date: 2007-04-12
Filing date: 2008-04-11
Publication date: 2010-02-24
Anticipated expiration: 2028-04-11
Also published as: US20160080757A1; KR102204262B1; WO2008127676A3; PL3836550T3; SI3920538T1; EP2512135A1; RU2521618C2; JP2019201435A; HUE055864T2; BR122018004903B1; BR122018004904B1; BRPI0809510A2; JP2010524398A; HUE053806T2; AU2008239653B2; US9838705B2; KR20170106987A; LT2887671T; PT3399756T; KR101965781B1

Abstract

提供了例如涉及视频编码和解码中的视图铺砌的实现。一种特定方法包括访间包括组合成单个图片的多个图片的视频图片(826)，访问表示所述访问的视频图片中的所述多个图片如何组合的信息(806、808、822)，解码所述视频图片以提供所述多个图片中至少一个的解码表示(824、826)，和将所述访问的信息和所述解码的视频图片作为输出提供(824、826)。某些其它实现格式化或处理表示单个视频图片中包括的多个图片如何组合为所述单个视频图片的信息，并且格式化或处理所述组合的多个图片的编码表示。

Description

视频编码和解码中的铺砌

相关申请的交叉引用

本申请要求(1)2007年4月12日提交的并且标题为“多视图信息”(Multiview Information)(代理人案PU070078)的美国临时申请序号60/923,014和(2)2007年4月20日提交的并且标题为“MVC编码中的视图铺砌”(View Tiling in MVC Coding)(代理人案PU070103)的美国临时申请序号60/925,400中每一个的利益。这两个申请中的每一个均全部合并在此作为参考。

技术领域

本发明原理一般地涉及视频编码和/或解码。

背景技术

视频显示器制造商可使用在单个帧上布置或铺砌不同视图的构架。然后视图可从它们各自的位置被提取并且呈现。

发明内容

根据一个一般方面，访问包括组合成单个图片的多个图片的视频图片。访问表示所访问视频图片中的多个图片如何组合的信息。解码视频图片以提供所组合多个图片的解码表示。所访问信息和所解码视频图片作为输出提供。

根据另一一般方面，生成表示视频图片中包括的多个图片如何组合成单个图片的信息。编码视频图片以提供所组合多个图片的编码表示。所生成信息和所编码视频图片作为输出提供。

根据另一一般方面，信号或信号结构包括表示单个视频图片中包括的多个图片如何组合成单个视频图片的信息。信号或信号结构还包括所组合多个图片的编码表示。

根据另一一般方面，访问包括组合成单个图片的多个图片的视频图片。访问表示所访问视频图片中的多个图片如何组合的信息。解码视频图片以提供多个图片中至少一个的解码表示。所访问信息和解码表示作为输出提供。

根据另一一般方面，访问包括组合为单个图片的多个图片的视频图片。访问表示所访问视频图片中的多个图片如何组合的信息。解码视频图片以提供所组合多个图片的解码表示。接收选择多个图片中的至少一个以用于显示的用户输入。提供至少一个所选择图片的解码输出，所述解码输出是基于所访问信息、解码表示、和用户输入而提供的。

在附图和下面的描述中阐述一个或多个实现的细节。即使以一种特定方式描述，应当清楚，实现可以各种方式配置或体现。例如，实现可作为方法来完成，或者体现为配置为完成一组操作的装置，或者体现为存储用于完成一组操作的指令的装置，或者在信号中体现。根据以下详细描述，结合附图和权利要求来考虑，其它方面和特征将变得明显。

附图说明

图1是示出在单个帧上铺砌的四个视图的示例的图；

图2是示出在单个帧上翻转铺砌的四个视图的示例的图；

图3根据本发明原理的实施例示出了本发明原理可应用到其的视频编码器的框图；

图4根据本发明原理的实施例示出了本发明原理可应用到其的视频解码器的框图；

图5是根据本发明原理实施例的使用MPEG-4 AVC标准编码用于多个视图的图片的方法的流程图；

图6是根据本发明原理实施例的使用MPEG-4 AVC标准解码用于多个视图的图片的方法的流程图；

图7是根据本发明原理实施例的使用MPEG-4 AVC标准编码用于多个视图和深度的图片的方法的流程图；

图8是根据本发明原理实施例的使用MPEG-4 AVC标准解码用于多个视图和深度的图片的方法的流程图；

图9是根据本发明原理实施例示出深度信号的示例的图；

图10是根据本发明原理实施例示出作为拼贴添加的深度信号的示例的图；

图11是根据本发明原理实施例示出在单个帧上铺砌的5个视图的示例的图；

图12是根据本发明原理实施例的本发明原理可应用到的示例多视图视频编码(MVC)编码器的框图；

图13是根据本发明原理实施例的本发明原理可应用到的示例多视图视频编码(MVC)解码器的框图；

图14是根据本发明原理实施例的为使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展编码图片做准备处理用于多个视图的图片的方法的流程图；

图15是根据本发明原理实施例的使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展编码用于多个视图的图片的方法的流程图；

图16是根据本发明原理实施例的为使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展解码图片做准备处理用于多个视图的图片的方法的流程图；

图17是根据本发明原理实施例的使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展解码用于多个视图的图片的方法的流程图；

图18是根据本发明原理实施例的为使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展编码图片做准备处理用于多个视图和深度的图片的方法的流程图；

图19是根据本发明原理实施例的使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展编码用于多个视图和深度的图片的方法的流程图；

图20是根据本发明原理实施例的为使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展解码图片做准备处理用于多个视图和深度的图片的方法的流程图；

图21是根据本发明原理实施例的使用MEPG-4 AVC标准的多视图视频编码(MVC)扩展解码用于多个视图和深度的图片的方法的流程图；

图22是根据本发明原理实施例示出像素级的铺砌示例的图；

图23根据本发明原理的实施例示出了本发明原理可应用到的视频处理设备的框图。

具体实施方式

各种实现方式涉及用于视频编码和解码中的视图铺砌的方法和装置。因此将会理解，本领域技术人员将能够想出各种布置，其尽管未在这里明确描述或示出，但体现了本发明原理并且包括在它的精神和范围内。

这里列举的所有示例和条件语言旨在用于教导的目的，以帮助读者理解发明人贡献的本发明原理和概念，以便促进技术，并且应当解释为不限于这些特定列举的示例和条件。

而且，这里列举本发明原理、方面、和实施例及其特定示例的所有语句旨在包含其结构和功能等同物。另外，旨在这些等同物包括当前已知的等同物以及未来开发的等同物，即执行相同功能的所开发的任何元件，不管结构如何。

因此，例如，本领域技术人员将会理解，这里给出的框图表示体现本发明原理的说明性电路的概念图。类似地，将会理解，任何流图、流程图、状态转变图、伪码等等表示基本上可在计算机可读介质中表示并且因此由计算机或处理器执行的各种过程，无论是否明确示出了这种计算机或处理器。

图中示出的各种元件的功能可通过使用专门硬件以及能够执行软件的硬件连同适当软件来提供。当由处理器提供时，功能可由单个专门处理器、由单个共享处理器、或者由其中某些可被共享的多个单独处理器来提供。而且，明确使用术语“处理器”或“控制器”不应当解释为排他地指代能够执行软件的硬件，并且可隐含地但不限于包括数字信号处理器(“DSP”)硬件、存储软件的只读存储器(“ROM”)、随机访问存储器(“RAM”)、和非易失性存储器。

还可包括常规的和/或定制的其它硬件。类似地，图中示出的任何开关仅仅是概念性的。它们的功能可通过程序逻辑的操作、通过专门逻辑、通过程序控制和专门逻辑的交互、或者甚至手动地来实现，实现者可选择根据上下文更具体地理解的特定的技术。

在本申请的权利要求中，表示为用于执行特定功能的装置的任何元件旨在包含执行该功能的任何方式，例如包括a)执行该功能的电路元件的组合或b)任何形式的软件，因此包括与用于执行该软件的适当电路组合以执行功能的固件、微代码等。如这些权利要求所定义的本发明原理存在于如下事实中：各种列举的装置提供的功能以权利要求需要的方式组合并且连接在一起。因此视为可提供那些功能的任何装置等同于这里示出的那些。

说明书中对本发明原理的“一个实施例”(或“一个实现”)或“实施例”(或“实现”)的引用意味着连同实施例描述的特定特征、结构、特点等包括在本发明原理的至少一个实施例中。因此，遍及说明书的各个位置中出现的短语“在一个实施例中”或“在实施例中”的出现不一定都指代相同实施例。

将会理解，例如，在“A和/或B”和“A和B中至少一个”的情况下使用术语“和/或”和“至少一个”旨在包含仅第一列出选项(A)的选择、或仅第二列出选项(B)的选择、或两个选项(A和B)的选择。作为另一示例，在“A、B、和/或C”和“A、B、和/或C中至少一个”的情况下，这样的短语旨在包含仅第一列出选项(A)的选择、或仅第二列出选项(B)的选择、或仅第三列出选项(C)的选择、或仅第一和第二列出选项(A和B)的选择、或仅第一和第三列出选项(A和C)的选择、或仅第二和第三列出选项(B和C)的选择、或所有三个选项(A和B和C)的选择。如本领域和相关领域普通技术人员所容易理解的，这可以对于与所列出的一样多的项进行扩展。

而且，将会理解，尽管这里相关于MPEG-4 AVC标准描述了本发明原理的一个或多个实施例，但本发明原理不完全限于该标准，并且因此可相关于其它标准、推荐、及其扩展来利用，特别是视频编码标准、推荐、及其扩展，包括MPEG-4 AVC标准的扩展，同时保持本发明原理的精神。

此外，将会理解，尽管这里相关于MPEG-4 AVC标准的多视图视频编码扩展描述了本发明原理的一个或多个实施例，但本发明原理不完全限于该扩展和/或该标准，并且因此可相关于涉及多视图视频编码的其它视频编码标准、推荐、及其扩展来利用，同时保持本发明原理的精神。多视图视频编码(MVC)是用于编码多视图序列的压缩构架。多视图视频编码(MVC)顺序是从不同观察点捕获相同场景的一组两个或更多的视频序列。

而且，将会理解，尽管这里描述了相关于视频内容使用深度信息的本发明原理的一个或多个其它实施例，本发明原理不限于这些实施例，并且因此可实现不使用深度信息的其它实施例，同时维持本发明原理的精神。

另外，如这里所使用，“高级别句法”指代分层次地驻留在宏块层以上的比特流中存在的句法。例如，如这里所使用的高级别句法可指代但不限于在薄片头部级、补充增强信息(SEI)级、图像参数集(PPS)级、序列参数集(SPS)级、视图参数集(VPS)、和网络抽象层(NAL)单元头部级处的句法。

在基于国际标准化组织/国际电工委员会(ISO/IEC)的运动图像专家组-4(MPEG-4)的部分10先进视频编码(AVC)标准/国际电信联盟-电信标准局(ITU-T)H.264推荐(以下称为“MPEG-4 AVC标准”)的多视频编码(MVC)的当前实现中，引用软件通过用单个编码器编码每个视图并且考虑到交叉视图引用来实现多视图预测。每个视图以它的初始分辨率由编码器编码为单独的比特流并且随后所有的比特流组合以形成单个比特流，该单个比特流然后被解码。每个视图产生单独的YUV解码输出。

用于多视图预测的另一方法包括将一组视图编组为伪视图。在该方法的一个示例中，我们可在进行可能的缩减采样或其它操作的同时，将来自总共M个视图(同时采样)中的每N个视图的图片铺砌到更大的帧或者超级帧上。转到图1，在单个帧上铺砌的四个视图的示例一般地由标号100来表示。所有四个视图处于它们的正常方向。

转到图2，在单个帧上翻转铺砌的四个视图的示例一般地由标号200表示。左上视图处于它的正常方向。右上视图水平翻转。左下视图垂直翻转。右下视图水平和垂直地翻转。因此，如果存在四个视图，那么来自每个视图的图片在超级帧中像拼贴一样布置。这产生了具有高分辨率的单个未编码输入序列。

或者，我们可缩减图像的采样以产生较小的分辨率。因此，我们创建多个序列，其中每个序列均包括铺砌在一起的不同视图。然后每个这种序列形成伪视图，其中每个伪视图包括N个不同的铺砌视图。图1示出了一个伪视图，并且图2示出了另一个伪视图。然后可使用现有的视频编码标准，例如ISO/IEC MPEG-2标准和MPEG-4 AVC标准来编码这些伪视图。

用于多视图预测的又一方法仅包括使用新标准独立地编码不同的视图，并且在解码之后，按照播放器所需来铺砌视图。

此外，在另一方法中，视图还可以按像素值方式来铺砌。例如，在由四个视图组成的超级视图中，像素(x，y)可来自于视图0，而像素(x+1，y)可来自于视图1，像素(x，y+1)可来自于视图2，并且像素(x+1，y+1)可来自于视图3。

许多显示器制造商使用这种在单个帧上布置或铺砌不同视图并且然后从它们各自的位置提取视图并且呈现它们的构架。在这些情况下，没有标准的方式来确定比特流是否具有这种特性。因此，如果系统使用在大的帧中铺砌不同视图的图片的方法，那么提取不同视图的方法是专有的。

然而，没有标准的方式来确定是否比特流具有这种特性。我们提出高级别句法以有助于呈现器或播放器提取这种信息，以便帮助显示或其它后处理。还可能的是，子图片具有不同的分辨率并且可需要某些升频采样来最终呈现视图。用户也可能想要在高级别句法中表示出升频采样的方法。另外，还可发送用于改变景深(depth focus)的参数。

在实施例中，我们提出一种新补充增强信息(SEI)消息，用于在兼容MPEG-4 AVC标准的比特流中发信号通知多视图信息，其中每个图片包括属于不同视图的子图片。实施例例如旨在容易和便利地在可使用这种构架的三维(3D)监视器上显示多视图视频流。概念可扩展到使用高级别句法发信号通知这种信息的其它视频编码标准和推荐。

而且，在实施例中，我们提出在视图发送到多视图视频编码器和/或解码器之前如何布置它们的信号发送方法。有利地，实施例可导致多视图编码的简化实现，并且可有益于编码效率。某些视图可放在一起并且形成伪视图或超级视图，并且然后铺砌的超级视图被常用多视图视频编码器和/或解码器例如按照当前基于MPEG-4 AVC标准的多视图视频编码的实现而视为正常视图。在多视图视频编码的序列参数集(SPS)扩展中提出了新标志以发信号通知伪视图技术的使用。实施例旨在容易并且便利地在可使用这种构架的3D监视器上显示多视图视频流。

使用单视图视频编码/解码标准/推荐的编码/解码

用于多视图预测的另一方法包括在可能进行缩减采样操作的同时，在更大的帧或超级帧上铺砌来自每个视图(同时采样)的图片。转到图1，在单个帧上铺砌的四个视图的示例一般由标号100来表示。转到图2，在单个帧上翻转铺砌的四个视图的示例一般由标号200表示。因此，如果存在四个视图，那么来自每个视图的图片在超级帧中像拼贴一样布置。这产生了具有高分辨率的单个未编码输入序列。然后可使用现有的视频编码标准，例如ISO/IEC MPEG-2标准和MPEG-4 AVC标准来编码该信号。

用于多视图预测的又一方法仅包括使用新标准独立地编码不同的视图，并且在解码后，按照播放器所需铺砌视图。

转到图3，能够根据MPEG-4 AVC标准执行视频编码的视频编码器一般地由标号300表示。

视频编码器300包括帧排序缓冲区310，该帧排序缓冲区310所具有的输出端与组合器385的非反相输入端进行信号通信。组合器385的输出端连接为与变换器和量化器325的第一输入端进行信号通信。变换器和量化器325的输出端连接为与熵编码器345的第一输入端以及反转变换器和反转量化器350的第一输入端进行信号通信。熵编码器345的输出端连接为与组合器390的第一非反相输入端进行信号通信。组合器390的输出端连接为与输出缓冲区335的第一输入端进行信号通信。

编码器控制器305的第一输出端连接为与帧排序缓冲区310的第二输入端、反转变换器和反转量化器350的第二输入端、图片类型判定模块315的输入端、宏块类型(MB类型)判定模块320的输入端、内部预测模块360的第二输入端、解块过滤器365的第二输入端、运动补偿器370的第一输入端、运动评估器375的第一输入端和引用图片缓冲区380的第二输入端进行信号通信。

编码器控制器305的第二输出端连接为与补充增强信息(SEI)插入器330的第一输入端、变换器和量化器325的第二输入端、熵编码器345的第二输入端、输出缓冲区335的第二输入端、以及序列参数集(SPS)和图片参数集(PPS)插入器340的输入端进行信号通信。

图片类型判定模块315的第一输出端连接为与帧排序缓冲区310的第三输入端进行信号通信。图片类型判定模块315的第二输出端连接为与宏块类型判定模块320的第二输入端进行信号通信。

序列参数集(SPS)和图片参数集(PPS)插入器340的输出端连接为与组合器390的第三非反相输入端进行信号通信。SEI插入器330的输出连接为与组合器390的第二非反相输入端进行信号通信。

反转量化器和反转变换器350的输出端连接为与组合器319的第一非反相输入端进行信号通信。组合器319的输出端连接为与内部预测模块360的第一输入端和解块过滤器365的第一输入端进行信号通信。解块过滤器365的输出端连接为与引用图片缓冲区380的第一输入端进行信号通信。引用图片缓冲区380的输出端连接为与运动评估器375的第二输入端以及运动补偿器370的第一输入端进行信号通信。运动评估器375的第一输出端连接为与运动补偿器370的第二输入端进行信号通信。运动评估器375的第二输出端连接为与熵编码器345的第三输入端进行信号通信。

运动补偿器370的输出端连接为与开关397的第一输入端进行信号通信。内部预测模块360的输出端连接为与开关397的第二输入端进行信号通信。宏块类型判定模块320的输出端连接为与开关397的第三输入端进行信号通信，以便向开关397提供控制输入。开关397的第三输入端确定开关的“数据”输入(与控制输入，即第三输入相比较)是否由运动补偿器370或内部预测模块360提供。开关397的输出端连接为与组合器319的第二非反相输入端以及组合器385的反相输入端进行信号通信。

帧排序缓冲区310和编码器控制器105的输入端作为编码器300的输入端可用，用于接收输入图片301。而且，补充增强信息(SEI)插入器330的输入端作为编码器300的输入端可用，用于接收元数据。输出缓冲区335的输出端作为编码器300的输出端可用，用于输出比特流。

转到图4，能够根据MPEG-4 AVC标准执行视频解码的视频解码器一般地由标号400表示。

视频解码器400包括输入缓冲区410，该输入缓冲区410所具有的输出端连接为具有与熵解码器45的第一输入端进行信号通信。熵解码器445的第一输出端连接为与反转变换器和反转量化器450的第一输入端进行信号通信。反转变换器和反转量化器450的输出端连接为与组合器425的第二非反相输入端进行信号通信。组合器425的输出端连接为解块过滤器465的第二输入端以及内部预测模块460的第一输入端进行信号通信。解块过滤器465的第二输出端连接为与引用图片缓冲区480的第一输入端进行信号通信。引用图片缓冲区480的输出端连接为与运动补偿器470的第二输入端进行信号通信。

熵解码器445的第二输出端连接为与运动补偿器470的第三输入端和解块过滤器465的第一输入端进行信号通信。熵解码器445的第三输出端连接为与解码器控制器405的输入端进行信号通信。解码器控制器405的第一输出端连接为与熵解码器445的第二输入端进行信号通信。解码器控制器405的第二输出端连接为与反转变换器和反转量化器450的第二输入端进行信号通信。解码器控制器405的第三输出端连接为与解块过滤器465的第三输入端进行信号通信。解码器控制器405的第四输出端连接为与内部预测模块460的第二输入端、与运动补偿器470的第一输入端、并且与引用图片缓冲区480的第二输入端进行信号通信。

运动补偿器470的输出端连接为与开关497的第一输入端进行信号通信。内部预测模块460的输出端连接为与开关497的第二输入端进行信号通信。开关497的输出端连接为与组合器425的第一非反相输入端进行信号通信。

输入缓冲区410的输入端作为解码器400的输入端可用，用于接收输入比特流。解块过滤器465的第一输出端作为解码器400的输出端可用，用于输出输出图片。

转到图5，使用MPEG-4 AVC标准对用于多个视图的图片进行编码的示例方法一般地由标号500表示。

方法500包括开始块502，开始块502向功能块504传递控制。功能块504在特定时间实例处布置每个视图，作为铺砌格式中的子图片，并且将控制传递到功能块506。功能块506设置句法元素num_coded_views_minus1，并且将控制传递到功能块508。功能块508设置句法元素org_pic_width_in_mbs_minus1和org_pic_height_in_mbs_minus1，并且将控制传递到功能块510。功能块510将变量i设置为等于0，并且将控制传递到判定块512。判定块512确定变量i是否小于视图的数量。如果是，那么控制传递到功能块514。否则，控制传递到功能块524。

功能块514设置句法元素view_id[i]，并且将控制传递到功能块516。功能块516设置句法元素num_parts[view_id[i]]，并且将控制传递到功能块518。功能块518将变量j设置为等于0，并且将控制传递到判定块520。判定块520确定变量j的当前值是否小于句法元素num_parts[view_id[i]]的当前值。如果是，那么控制传递到功能块522。否则，控制传递到功能块528。

功能块522设置以下句法元素，递增变量j，并且然后将控制返回判定块520：depth_flag[view_id[i]][j]；flip_dir[view_id[i]][j]；loc_left_offset[view_id[i]][j]；loc_top_offset[view_id[i]][j]；frame_crop_left_offset[view_id[i]][j]；frame_crop_right_offset[view_id[i]][j]；frame_crop_top_offset[view_id[i]][j]；和frame_crop_bottom_offset[view_id[i]][j]。

功能块528设置句法元素upsample_view_flag[view_id[i]]，并且将控制传递到判定块530。判定块530确定句法元素upsample_view_flag[view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块532。否则，控制传递到判定块534。

功能块532设置句法元素upsample_filter[view_id[i]]，并且将控制传递到判定块534。

判定块534确定句法元素upsample_filter[view_id[i]]的当前值是否等于3。如果是，那么控制传递到功能块536。否则，控制传递到功能块540。

功能块536设置以下句法元素并且将控制传递到功能块538：vert_dim[view_id[i]]；hor_dim[view_id[i]]；和quantizer[view_id[i]]。

功能块538设置用于每个YUV分量的过滤器系数，并且将控制传递到功能块540。

功能块540递增变量i，并且将控制返回到判定块512。

功能块524将这些句法元素写到序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)消息、网络抽象层(NAL)单元头部、和薄片头部(slice header)中的至少一个，并且将控制传递到功能块526。功能块526使用MPEG-4 AVC标准或者其它单视图编解码器来编码每个图片，并且将控制传递到结束块599。

转到图6，使用MPEG-4 AVC标准解码用于多个视图的图片的示例方法一般地由标号600表示。

方法600包括开始块602，开始块602将控制传递到功能块604。功能块604解析来自序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)消息、网络抽象层(NAL)单元头部、和薄片头部中的至少一个的以下句法元素，并且将控制传递到功能块606。功能块606解析句法元素num_coded_views_minus1，并且将控制传递到功能块608。功能块608解析句法元素org_pic_width_in_mbs_minus1和org_pic_height_in_mbs_minus1，并且将控制传递到功能块610。功能块610将变量i设置为等于0，并且将控制传递到判定块612。判定块612确定变量i是否小于视图的数量。如果是，那么控制传递到功能块614。否则，控制传递到功能块624。

功能块614解析句法元素view_id[i]，并且将控制传递到功能块616。功能块616解析句法元素num_parts_minus1[view_id[i]]，并且将控制传递到功能块618。功能块618将变量j设置为等于0，并且将控制传递到判定块620。判定块620确定变量j的当前值是否小于句法元素num_parts[view_id[i]]的当前值。如果是，那么控制传递到功能块622。否则，控制传递到功能块628。

功能块622解析以下句法元素，递增变量j，并且然后将控制返回到判定块620：depth_flag[view_id[i]][j]；flip_dir[view_id[i]][j]；loc_left_offset[view_id[i]][j]；loc_top_offset[view_id[i]][j]；frame_crop_left_offset[view_id[i]][j]；frame_crop_right_offset[view_id[i]][j]；frame_crop_top_offset[view_id[i]][j]；和frame_crop_bottom_offset[view_id[i]][j]。

功能块628解析句法元素upsample_view_flag[view_id[i]]，并且将控制传递到判定块630。判定块630确定句法元素upsample_view_flag[view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块632。否则，控制传递到判定块634。

功能块632解析句法元素upsample_filter[view_id[i]]，并且将控制传递到判定块634。

判定块634确定句法元素upsample_filter[view_id[i]]的当前值是否等于3。如果是，那么控制传递到功能块636。否则，控制传递到功能块640。

功能块636解析以下句法元素并且将控制传递到功能块638：vert_dim[view_id[i]]；hor_dim[view_id[i]]；和quantizer[view_d[i]]。

功能块638解析用于每个YUV分量的过滤器系数，并且将控制传递到功能块640。

功能块640递增变量i，并且将控制返回到判定块612。

功能块624使用MPEG-4 AVC标准或者其它单视图编解码器来解码每个图片，并且将控制传递到功能块626。功能块626使用高级别句法从图片分离每个视图，并且将控制传递到结束块699。

转到图7，使用MPEG-4 AVC标准编码用于多个视图和深度的图片的示例方法一般地由标号700表示。

方法700包括开始块702，开始块702将控制传递到功能块704。功能块704在特定时间实例处布置每个视图和对应深度，作为铺砌格式中的子图片，并且将图片传递到功能块706。功能块706设置句法元素num_coded_views_minus1，并且将控制传递到功能块708。功能块708设置句法元素org_pic_width_in_mbs_minus1和org_pic_height_in_mbs_minus1，并且将控制传递到功能块710。功能块710将变量i设置为等于0，并且将控制传递到判定块712。判定块712确定变量i是否小于视图的数量。如果是，那么控制传递到功能块714。否则，控制传递到功能块724。

功能块714设置句法元素view_id[i]，并且将控制传递到功能块716。功能块716设置句法元素num_parts[view_id[i]]，并且将控制传递到功能块718。功能块718将变量j设置为等于0，并且将控制传递到判定块720。判定块720确定变量j的当前值是否小于句法元素num_parts[view_id[i]]的当前值。如果是，那么控制传递到功能块722。否则，控制传递到功能块728。

功能块722设置以下句法元素，递增变量j，并且然后将控制返回到判定块720：depth_flag[view_id[i]][j]；flip_dir[view_id[i]][j]；loc_left_offset[view_id[i]][j]；loc_top_offset[view_id[i]][j]；frame_crop_left_offset[view_id[i]][j]；frame_crop_right_offset[view_id[i]][j]；frame_crop_top_offset[view_id[i]][j]；和frame_crop_bottom_offset[view_id[i]][j]。

功能块728设置句法元素upsample_view_flag[view_id[i]]，并且将控制传递到判定块730。判定块730确定句法元素upsample_view_flag[view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块732。否则，控制传递到判定块734。

功能块732设置句法元素upsample_filter[view_id[i]]，并且将控制传递到判定块734。

判定块734确定句法元素upsample_filter[view_id[i]]的当前值是否等于3。如果是，那么控制传递到功能块736。否则，控制传递到功能块740。

功能块736设置以下句法元素并且将控制传递到功能块738：vert_dim[view_id[i]]；hor_dim[view_id[i]]；和quantizer[view_id[i]]。

功能块738设置用于每个YUV分量的过滤器系数，并且将控制传递到功能块740。

功能块740递增变量i，并且将控制返回到判定块712。

功能块724将这些句法元素写到序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)消息、网络抽象层(NAL)单元头部、和薄片头部中的至少一个，并且将控制传递到功能块726。功能块726使用MPEG-4 AVC标准或者其它单视图编解码器来编码每个图片，并且将控制传递到结束块799。

转到图8，使用MPEG-4 AVC标准解码用于多个视图和深度的图片的示例方法一般地由标号800表示。

方法800包括开始块802，开始块802将控制传递到功能块804。功能块804解析来自序列参数集(SPS)、图片参数集(PPS)、补充增强信息(SEI)消息、网络抽象层(NAL)单元头部、和薄片头部中的至少一个的以下句法元素，并且将控制传递到功能块806。功能块806解析句法元素num_coded_views_minus1，并且将控制传递到功能块808。功能块808解析句法元素org_pic_width_in_mbs_minus1和org_pic_height_in_mbs_minus1，并且将控制传递到功能块810。功能块810将变量i设置为等于0，并且将控制传递到判定块812。判定块812确定变量i是否小于视图的数量。如果是，那么控制传递到功能块814。否则，控制传递到功能块824。

功能块814解析句法元素view_id[i]，并且将控制传递到功能块816。功能块816解析句法元素num_parts_minus1[view_id[i]]，并且将控制传递到功能块818。功能块818将变量j设置为等于0，并且将控制传递到判定块820。判定块820确定变量j的当前值是否小于句法元素num_parts[view_id[i]]的当前值。如果是，那么控制传递到功能块822。否则，控制传递到功能块828。

功能块822解析以下句法元素，递增变量j，并且然后将控制返回到判定块820：depth_flag[view_id[i]][j]；flip_dir[view_id[i]][j]；loc_left_offset[view_id[i]][j]；loc_top_offset[view_id[i]][j]；frame_crop_left_offset[view_id[i]][j]；frame_crop_right_offset[view_id[i]][j]；frame_crop_top_offset[view_id[i]][j]；和frame_crop_bottom_offset[view_id[i]][j]。

功能块828解析句法元素upsample_view_flag[view_id[i]]，并且将控制传递到判定块830。判定块830确定句法元素upsample_view_flag[view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块832。否则，控制传递到判定块834。

功能块832解析句法元素upsample_filter[view_id[i]]，并且将控制传递到判定块834。

判定块834确定句法元素upsample_filter[view_id[i]]的当前值是否等于3。如果是，那么控制传递到功能块836。否则，控制传递到功能块840。

功能块836解析以下句法元素并且将控制传递到功能块838：vert_dim[view_id[i]]；hor_dim[view_id[i]]；和quantizer[view_id[i]]。

功能块838解析用于每个YUV分量的过滤器系数，并且将控制传递到功能块840。

功能块840递增变量i，并且将控制返回到判定块812。

功能块824使用MPEG-4 AVC标准或者其它单视图编解码器来解码每个图片，并且将控制传递到功能块826。功能块826使用高级别句法从图片分离每个视图和对应深度，并且将控制传递到功能块827。功能块827可能使用所提取视图和深度信号来执行视图合成，并且将控制传递到结束块899。

相关于图7和图8中使用的深度，图9示出了深度信号900的示例，其中深度作为用于图像(未示出)的每个相应位置的像素值来提供。此外，图10示出了拼贴1000中包括的两个深度信号的示例。拼贴1000的右上部分是具有对应于拼贴1000左上的图像的深度值的深度信号。拼贴1000的右下部分是具有对应于拼贴1000左下的图像的深度值的深度信号。

转到图11，单个帧上铺砌的五个视图的示例一般地由标号1100表示。上面的四个视图处于正常方向。第五个视图也处于正常方向，但是沿着拼贴1100的底部分为两个部分。第五个视图的左部示出了第五个视图的“上”，并且第五个视图的右部示出了第五个视图的“下”。

使用多视图视频编码/解码标准/推荐进行编码/解码

转到图12，示例多视图视频编码(MVC)编码器一般地由标号1200表示。编码器1200包括组合器1205，组合器1205所具有的输出端连接为与变换器1210的输入端进行信号通信。变换器1210的输出端连接为与量化器1215的输入端进行信号通信。量化器1215的输出端连接为与熵编码器1220的输入端和反转量化器1225的输入端进行信号通信。反转量化器1225的输出端连接为与反转变换器1230的输入端进行信号通信。反转变换器1230的输出端连接为与组合器1235的第一非反相输入端进行信号通信。组合器1235的输出端连接为与内部预测器1245的输入端和解块过滤器1250的输入端进行信号通信。解块过滤器1250的输出端连接为与引用图片存储器1255(用于视图i)的输入端进行信号通信。引用图片存储器1255的输出端连接为与运动补偿器1275的第一输入端和运动评估器1280的第一输入端进行信号通信。运动评估器1280的输出端连接为与运动补偿器1275的第二输入端进行信号通信。

引用图片存储器1260(用于其它视图)的输出端连接为与差别评估器1270的第一输入端和差别补偿器1265的第一输入端进行信号通信。差别评估器1270的输出端连接为与差别补偿器1265的第二输入端进行信号通信。

熵解码器1220的输出端作为编码器1200的输出端可用。组合器1205的非反相输入端作为编码器1200的输入端可用，并且连接为与差别评估器1270的第二输入端和运动评估器1280的第二输入端进行信号通信。开关1285的输出端连接为与组合器1235的第二非反相输入端和组合器1205的反相输入端进行信号通信。开关1285包括连接为与运动补偿器1275的输出端进行信号通信的第一输入端、连接为与差别补偿器1265的输出端进行信号通信的第二输入端、和连接为与内部预测器1245的输出端进行信号通信的第三输入端。

模式判定模块1240所具有的输出端连接到开关1285，用于控制由开关1285选择哪个输入。

转到图13，示例多视图视频编码(MVC)解码器一般地由标号1300表示。解码器1300包括熵解码器1305，熵解码器1305所具有的输出端连接为与反转量化器1310的输入端进行信号通信。反转量化器1310的输出端连接为与反转变换器1315的输入端进行信号通信。反转变换器1315的输出端连接为与组合器1320的第一非反相输入端进行信号通信。组合器1320的输出端连接为与解块过滤器1325的输入端和内部预测器1330的输入端进行信号通信。解块过滤器1325的输出端连接为与引用图片存储器1340(用于视图i)的输入端进行信号通信。引用图片存储器1340的输出端连接为与运动补偿器1335的第一输入端进行信号通信。

引用图片存储器1345(用于其它视图)的输出端连接为与差别补偿器1350的第一输入端进行信号通信。

熵解码器1305的输入端作为到解码器1300的输入端可用，用于接收剩余比特流(residue bitstream)。而且，模式模块1360的输入端也作为到解码器1300的输入端可用，用于接收控制句法以便控制开关1355选择哪个输入。此外，运动补偿器1355的第二输入端作为解码器1300的输入端可用，用于接收运动矢量。而且，差别补偿器1350的第二输入端作为到解码器1300的输入端可用，用于接收差别矢量。

开关1355的输出端连接为与组合器1320的第二非反相输入端进行信号通信。开关1355的第一输入端连接为与差别补偿器1350的输出端进行信号通信。开关1355的第二输入端连接为与运动补偿器1355的输出端进行信号通信。开关1355的第三输入端连接为与内部预测器1330的输出端进行信号通信。模式模块1360的输出端连接为与开关1355进行信号通信，用于控制开关1355选择哪个输入。解块过滤器1325的输出端作为解码器1300的输出端可用。

转到图14，为使用MPEG-4AVC标准的多视图视频编码(MVC)扩展编码图片做准备处理用于多个视图的图片的示例方法一般地由标号1400表示。

方法1400包括开始块1405，开始块1405将控制传递到功能块1410。功能块1410在总共M个视图中，每N个视图在特定时间实例处布置，作为铺砌格式中的子图片，并且将控制传递到功能块1415。功能块1415设置句法元素num_coded_views_minus1，并且将控制传递到功能块1420。功能块1420设置用于所有(num_coded_views_minus1+1)视图的句法元素view_id[i]，并且将控制传递到功能块1425。功能块1425设置用于锚图片的视图间引用相关性信息，并且将控制传递到功能块1430。功能块1430设置用于非锚图片的视图间引用相关性信息，并且将控制传递到功能块1435。功能块1435设置句法元素pseudo_view_present_flag，并且将控制传递到判定块1440。判定块1440确定句法元素pseudo_view_present_flag的当前值是否等于真。如果是，那么控制传递到功能块1445。否则，控制传递到结束块1499。

功能块1445设置以下句法元素，并且将控制传递到功能块1450：tiling_mode；org_pic_width_in_mbs_minus1；和org_pic_height_in_mbs_minus1。功能块1450调用用于每个所编码视图的句法元素pseudo_view_info(view_id)，并且将控制传递到结束块1499。

转到图15，使用MPEG-4AVC标准的多视图视频编码(MVC)扩展编码用于多个视图的图片的示例方法一般地由标号1500表示。

方法1500包括开始块1502，开始块1502具有输入参数pseudo_view_id并且将控制传递到功能块1504。功能块1504设置句法元素num_sub_views_minus1，并且将控制传递到功能块1506。功能块1506将变量i设置为等于0，并且将控制传递到判定块1508。判定块1508确定变量i是否小于子视图的数量。如果是，那么控制传递到功能块1510。否则，控制传递到功能块1520。

功能块1510设置句法元素sub_view_id[i]，并且将控制传递到功能块1512。功能块1512设置句法元素num_parts_minus1[sub_view_id[i]]，并且将控制传递到功能块1514。功能块1514将变量j设置为等于0，并且将控制传递到判定块1516。判定块1516确定变量j是否小于句法元素num_parts_minus1[sub_view_id[i]]。如果是，那么控制传递到功能块1518。否则，控制传递到判定块1522。

功能块1518设置以下句法元素，递增变量j，并且将控制返回到判定块1516：loc_left_offset[sub_view_id[i]][j]；loc_top_offset[sub_view_id[i]][j]；frame_crop_left_offset[sub_view_id[i]][j]；frame_crop_right_offset[sub_view_id[i]][j]；frame_crop_top_offset[sub_view_id[i]][j]；和frame_crop_bottom_offset[sub_view_id[i]][j]。

功能块1520使用多视图视频编码(MVC)编码用于当前视图的当前图片，并且将控制传递到结束块1599。

判定块1522确定句法元素tiling_mode是否等于0。如果是，那么控制传递到功能块1524。否则，控制传递到功能块1538。

功能块1524设置句法元素flip_dir[sub_view_id[i]]和句法元素upsample_view_flag[sub_view_id[i]]，并且将控制传递到判定块1526。判定块1526确定句法元素upsample_view_flag[sub_view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块1528。否则，控制传递到判定块1530。

功能块1528设置句法元素upsample_filter[sub_view_id[i]]，并且将控制传递到判定块1530。判定块1530确定句法元素upsample_filter[sub_view_id[i]]的值是否等于3。如果是，控制传递到功能块1532。否则，控制传递到功能块1536。

功能块1532设置以下句法元素，并且将控制传递到功能块1534：vert_dim[sub_view_id[i]]；hor_dim[sub_view_id[i]]；和quantizer[sub_view_id[i]]。功能块1534设置用于每个YUV分量的过滤器系数，并且将控制传递到功能块1536。

功能块1536递增变量i，并且将控制返回到判定块1508。

功能块1538设置句法元素pixel_dist_x[sub_view_id[i]]和句法元素flip_dist_y[sub_view_id[i]]，并且将控制传递到功能块1540。功能块1540将变量j设置为等于0，并且将控制传递到判定块1542。判定块1542确定变量j的当前值是否小于句法元素num_parts[sub_view_id[i]]的当前值。如果是，那么控制传递到功能块1544。否则，控制传递到功能块1536。

功能块1544设置句法元素num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]]，并且将控制传递到功能块1546。功能块1546设置用于所有像素铺砌过滤器的系数，并且将控制传递到功能块1536。

转到图16，为使用MPEG-4 AVC标准的多视图视频编码(MVC)扩展解码图片做准备处理用于多个视图的图片的示例方法一般地由标号1600表示。

方法1600包括开始块1605，开始块1605将控制传递到功能块1615。功能块1615解析句法元素num_coded_views_minus1，并且将控制传递到功能块1620。功能块1620解析用于所有(num_coded_views_minus1+1)视图的句法元素view_id[i]，并且将控制传递到功能块1625。功能块1625解析用于锚图片的视图间引用相关性信息，并且将控制传递到功能块1630。功能块1630解析用于非锚图片的视图间引用相关性信息，并且将控制传递到功能块1635。功能块1635解析句法元素pseudo_view_present_flag，并且将控制传递到判定块1640。判定块1640确定句法元素pseudo_view_present_flag的当前值是否等于真。如果是，那么控制传递到功能块1645。否则，控制传递到结束块1699。

功能块1645解析以下句法元素，并且将控制传递到功能块1650：tiling_mode；org_pic_width_in_mbs_minus1；和org_pic_height_in_mbs_minus1。功能块1650调用用于每个所编码视图的句法元素pseudo_view_info(view_id)，并且将控制传递到结束块1699。

转到图17，使用MPEG-4 AVC标准的多视图视频编码(MVC)扩展解码用于多个视图的图片的示例方法一般地由标号1700表示。

方法1700包括开始块1702，开始块1702以输入参数pseudo_view_id开始并且将控制传递到功能块1704。功能块1704解析句法元素num_sub_views_minus1，并且将控制传递到功能块1706。功能块1706将变量i设置为等于0，并且将控制传递到判定块1708。判定块1708确定变量i是否小于子视图的数量。如果是，那么控制传递到功能块1710。否则，控制传递到功能块1720。

功能块1710解析句法元素sub_view_id[i]，并且将控制传递到功能块1712。功能块1712解析句法元素num_parts_minus1[sub_view_id[i]]，并且将控制传递到功能块1714。功能块1714将变量j设置为等于0，并且将控制传递到判定块1716。判定块1716确定变量j是否小于句法元素num_parts_minus1[sub_view_id[i]]。如果是，那么控制传递到功能块1718。否则，控制传递到判定块1722。

功能块1718设置以下句法元素，递增变量j，并且将控制返回到判定块1716：loc_left_offset[sub_view_id[i]][j]；loc_top_offset[sub_view_id[i]][j]；frame_crop_left_offset[sub_view_id[i]][j]；frame_crop_right_offset[sub_view_id[i]][j]；frame_crop_top_offset[sub_view_id[i]][j]；和frame_crop_bottom_offset[sub_view_id[i]][j]。

功能块1720使用多视图视频编码(MVC)解码用于当前视图的当前图片，并且将控制传递到功能块1721。功能块1721使用高级别句法从图片分离每个视图，并且将控制传递到结束块1799。

使用比特流中表示的高级别句法完成每个视图从所解码图片的分离。该高级别句法可表示出图片中存在的视图的精确位置和可能方向(以及可能的对应深度)。

判定块1722确定句法元素tiling_mode是否等于0。如果是，那么控制传递到功能块1724。否则，控制传递到功能块1738。

功能块1724解析句法元素flip_dir[sub_view_id[i]]和句法元素upsample_view_flag[sub_view_id[i]]，并且将控制传递到判定块1726。判定块1726确定句法元素upsample_view_flag[sub_view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块1728。否则，控制传递到判定块1730。

功能块1728解析句法元素upsample_filter[sub_view_id[i]]，并且将控制传递到判定块1730。判定块1730确定句法元素upsample_filter[sub_view_id[i]]的值是否等于3。如果是，控制传递到功能块1732。否则，控制传递到功能块1736。

功能块1732解析以下句法元素，并且将控制传递到功能块1734：vert_dim[sub_view_id[i]]；hor_dim[sub_view_id[i]]；和quantizer[sub_view_id[i]]。功能块1734解析用于每个YUV分量的过滤器系数，并且将控制传递到功能块1736。

功能块1736递增变量i，并且将控制返回到判定块1708。

功能块1738解析句法元素pixel_dist_x[sub_view_id[i]]和句法元素fip_dist_y[sub_view_id[i]]，并且将控制传递到功能块1740。功能块1740将变量j设置为等于0，并且将控制传递到判定块1742。判定块1742确定变量j的当前值是否小于句法元素num_parts[sub_view_id[i]]的当前值。如果是，那么控制传递到功能块1744。否则，控制传递到功能块1736。

功能块1744解析句法元素num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]]，并且将控制传递到功能块1746。功能块1746解析用于所有像素铺砌过滤器的系数，并且将控制传递到功能块1736。

转到图18，为使用MPEG-4AVC标准的多视图视频编码(MVC)扩展编码图片做准备处理用于多个视图和深度的图片的示例方法一般地由标号1800表示。

方法1800包括开始块1805，开始块1805将控制传递到功能块1810。功能块1810在总共M个视图和深度地图(map)中，每N个视图和深度地图在特定时间实例处布置，作为铺砌格式中的超级图片，并且将控制传递到功能块1815。功能块1815设置句法元素num_coded_views_minus1，并且将控制传递到功能块1820。功能块1820设置用于对应于深度view_id[i]的所有(num_coded_views_minus1+1)深度的句法元素view_id[i]，并且将控制传递到功能块1825。功能块1825设置用于锚深度图片的视图间引用相关性信息，并且将控制传递到功能块1830。功能块1830设置用于非锚深度图片的视图间引用相关性信息，并且将控制传递到功能块1835。功能块1835设置句法元素pseudo_view_present_flag，并且将控制传递到判定块1840。判定块1840确定句法元素pseudo_view_present_flag的当前值是否等于真。如果是，那么控制传递到功能块1845。否则，控制传递到结束块1899。

功能块1845设置以下句法元素，并且将控制传递到功能块1850：tiling_mode；org_pic_width_in_mbs_minus1；和org_pic_height_in_mbs_minus1。功能块1850调用用于每个所编码视图的句法元素pseudo_view_info(view_id)，并且将控制传递到结束块1899。

转到图19，使用MPEG-4 AVC标准的多视图视频编码(MVC)扩展编码用于多个视图和深度的图片的示例方法一般地由标号1900表示。

方法1900包括开始块1902，开始块1902将控制传递到功能块1904。功能块1904设置句法元素num_sub_views_minus1，并且将控制传递到功能块1906。功能块1906将变量i设置为等于0，并且将控制传递到判定块1908。判定块1908确定变量i是否小于子视图的数量。如果是，那么控制传递到功能块1910。否则，控制传递到功能块1920。

功能块1910设置句法元素sub_view_id[i]，并且将控制传递到功能块1912。功能块1912设置句法元素num_parts_minus1[sub_view_id[i]]，并且将控制传递到功能块1914。功能块1914将变量j设置为等于0，并且将控制传递到判定块1916。判定块1916确定变量j是否小于句法元素num_parts_minus1[sub_view_id[i]]。如果是，那么控制传递到功能块1918。否则，控制传递到判定块1922。

功能块1918设置以下句法元素，递增变量j，并且将控制返回到判定块1916：loc_left_offset[sub_view_id[i]][j]；loc_top_offset[sub_view_id[i]][j]；frame_crop_left_offset[sub_view_id[i]][j]；frame_crop_right_offset[sub_view_id[i]][j]；frame_crop_top_offset[sub_view_id[i]][j]；和frame_crop_bottom_offset[sub_view_id[i]][j]。

功能块1920使用多视图视频编码(MVC)编码用于当前视图的当前深度，并且将控制传递到结束块1999。可类似于编码深度信号的对应视频信号的方式来编码深度信号。例如，用于视图的深度信号可包括在拼贴上，所述拼贴仅包括其它深度信号，或者仅包括视频信号，或者包括深度和视频信号两者。然后将拼贴(伪视图)视为用于MVC的单个视图，并且也可能存在视为用于MVC的其它视图的其它拼贴。

判定块1922确定句法元素tiling_mode是否等于0。如果是，那么控制传递到功能块1924。否则，控制传递到功能块1938。

功能块1924设置句法元素flip_dir[sub_view_id[i]]和句法元素upsample_view_flag[sub_view_id[i]]，并且将控制传递到判定块1926。判定块1926确定句法元素upsample_view_flag[sub_view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块1928。否则，控制传递到判定块1930。

功能块1928设置句法元素upsample_filter[sub_view_id[i]]，并且将控制传递到判定块1930。判定块1930确定句法元素upsample_filter[sub_view_id[i]]的值是否等于3。如果是，控制传递到功能块1932。否则，控制传递到功能块1936。

功能块1932设置以下句法元素，并且将控制传递到功能块1934：vert_dim[sub_view_id[i]]；hor_dim[sub_view_id[i]]；和quantizer[sub_view_id[i]]。功能块1934设置用于每个YUV分量的过滤器系数，并且将控制传递到功能块1936。

功能块1936递增变量i，并且将控制返回到判定块1908。

功能块1938设置句法元素pixel_dist_x[sub_view_id[i]]和句法元素flip_dist_y[sub_view_id[i]]，并且将控制传递到功能块1940。功能块1940将变量j设置为等于0，并且将控制传递到判定块1942。判定块1942确定变量j的当前值是否小于句法元素num_parts[sub_view_id[i]]的当前值。如果是，那么控制传递到功能块1944。否则，控制传递到功能块1936。

功能块1944设置句法元素num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]]，并且将控制传递到功能块1946。功能块1946设置用于所有像素铺砌过滤器的系数，并且将控制传递到功能块1936。

转到图20，为使用MPEG-4 AVC标准的多视图视频编码(MVC)扩展解码图片做准备处理用于多个视图和深度的图片的示例方法一般地由标号2000表示。

方法2000包括开始块2005，开始块2005将控制传递到功能块2015。功能块2015解析句法元素num_coded_views_minus1，并且将控制传递到功能块2020。功能块2020解析用于对应于view_id[i]的所有(num_coded_views_minus1+1)深度的句法元素view_id[i]，并且将控制传递到功能块2025。功能块2025解析用于锚深度图片的视图间引用相关性信息，并且将控制传递到功能块2030。功能块2030解析用于非锚深度图片的视图间引用相关性信息，并且将控制传递到功能块2035。功能块2035解析句法元素pseudo_view_present_flag，并且将控制传递到判定块2040。判定块2040确定句法元素pseudo_view_present_flag的当前值是否等于真。如果是，那么控制传递到功能块2045。否则，控制传递到结束块2099。

功能块2045解析以下句法元素，并且将控制传递到功能块2050：tiling_mode；org_pic_width_in_mbs_minus1；和org_pic_height_in_mbs_minus1。功能块2050调用用于每个所编码视图的句法元素pseudo_view_info(view_id)，并且将控制传递到结束块2099。

转到图21，使用MPEG-4 AVC标准的多视图视频编码(MVC)扩展解码用于多个视图和深度的图片的示例方法一般地由标号2100表示。

方法2100包括开始块2102，开始块2102以输入参数pseudo_view_id开始并且将控制传递到功能块2104。功能块2104解析句法元素num_sub_views_minus1，并且将控制传递到功能块2106。功能块2106将变量i设置为等于0，并且将控制传递到判定块2108。判定块2108确定变量i是否小于子视图的数量。如果是，那么控制传递到功能块2110。否则，控制传递到功能块2120。

功能块2110解析句法元素sub_view_id[i]，并且将控制传递到功能块2112。功能块2112解析句法元素num_parts_minus1[sub_view_id[i]]，并且将控制传递到功能块2114。功能块2114将变量j设置为等于0，并且将控制传递到判定块2116。判定块2116确定变量j是否小于句法元素num_parts_minus1[sub_view_id[i]]。如果是，那么控制传递到功能块2118。否则，控制传递到判定块2122。

功能块2118设置以下句法元素，递增变量j，并且将控制返回到判定块2116：loc_left_offset[sub_view_id[i]][j]；loc_top_offset[sub_view_vd[i]][j]；frame_crop_left_offset[sub_view_id[i]][j]；frame_crop_right_offset[sub_view_id[i]][j]；frame_crop_top_offset[sub_view_id[i]][j]；和frame_crop_bottom_offset[sub_view_id[i]][j]。

功能块2120使用多视图视频编码(MVC)解码当前图片，并且将控制传递到功能块2121。功能块2121使用高级别句法从图片分离每个视图，并且将控制传递到结束块2199。使用高级别句法对每个视图的分离和之前描述的一样。

判定块2122确定句法元素tiling_mode是否等于0。如果是，那么控制传递到功能块2124。否则，控制传递到功能块2138。

功能块2124解析句法元素flip_dir[sub_view_id[i]]和句法元素upsample_view_flag[sub_view_id[i]]，并且将控制传递到判定块2126。判定块2126确定句法元素upsample_view_flag[sub_view_id[i]]的当前值是否等于1。如果是，那么控制传递到功能块2128。否则，控制传递到判定块2130。

功能块2128解析句法元素upsample_filter[sub_view_id[i]]，并且将控制传递到判定块2130。判定块2130确定句法元素upsample_filter[sub_view_id[i]]的值是否等于3。如果是，控制传递到功能块2132。否则，控制传递到功能块2136。

功能块2132解析以下句法元素，并且将控制传递到功能块2134：vert_dim[sub_view_id[i]]；hor_dim[sub_view_id[i]]；和quantizer[sub_view_id[i]]。功能块2134解析用于每个YUV分量的过滤器系数，并且将控制传递到功能块2136。

功能块2136递增变量i，并且将控制返回到判定块2108。

功能块2138解析句法元素pixel_dist_x[sub_view_id[i]]和句法元素flip_dist_y[sub_view_id[i]]，并且将控制传递到功能块2140。功能块2140将变量j设置为等于0，并且将控制传递到判定块2142。判定块2142确定变量j的当前值是否小于句法元素num_parts[sub_view_id[i]]的当前值。如果是，那么控制传递到功能块2144。否则，控制传递到功能块2136。

功能块2144解析句法元素num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]]，并且将控制传递到功能块2146。功能块2146解析用于所有像素铺砌过滤器的系数，并且将控制传递到功能块2136。

转到图22，像素级的铺砌示例一般地由标号2200表示。在下面进一步描述图22。

使用MPEG-4 AVC或MVC的视图铺砌

多视图视频编码的应用是自由视点TV(或FTV)。该应用要求用户可自由地在两个或更多视图之间移动。为了实现此，需要插值或合成出两个视图之间的“虚拟”视图。存在多种方法来完成视图插值。方法之一将深度用于视图插值/合成。

每个视图可具有关联的深度信号。因此，深度可视为另一种形式的视频信号。图9示出了深度信号900的示例。为了允许例如FTV的应用，深度信号和视频信号一起发送。在所提出的铺砌的构架中，深度信号也可作为拼贴之一添加。图10示出了作为拼贴添加的深度信号的示例。深度信号/拼贴在图10的右侧示出。

一旦深度作为整个帧的拼贴被编码，高级别句法应当表示出哪个拼贴是深度信号，以使得渲染器可适当地使用深度信号。

在使用MPEG-4 AVC标准编码器(或者对应于不同的视频编码标准和/或推荐的编码器)对输入序列(例如图1中所示出的)进行编码的情况下，所提出的高级别句法例如可存在于序列参数集(SPS)、图片参数集(PPS)、薄片头部、和/或增强补充信息(SEI)消息中。所提出的方法的实施例在表1中示出，其中句法存在于增强补充信息(SEI)消息中。

在使用MPEG-4 AVC标准编码器(或者对应于相关于不同的视频编码标准和/或推荐的多视图视频编码标准的编码器)的多视图视频编码(MVC)扩展对伪视图(例如图1中所示出的)的输入序列进行编码的情况下，所提出的高级别句法可存在于SPS、PPS、薄片头部、SEI消息、或指定的简档(profile)90中。所提出的方法的实施例在表1中示出。表1示出了序列参数集(SPS)结构中存在的句法元素，包括根据本发明原理实施例提出的句法元素。

表1

seq_parameter_set_mvc_extension(){	C	描述符
seq_parameter_set_mvc_extension(){	C	描述符	num_views_minus_1	ue(v)
for(i＝0；i＜＝num_views_minus_1；i++)			num_views_minus_1	ue(v)
for(i＝0；i＜＝num_views_minus_1；i++)			view_id[i]	ue(v)
for(i＝0；i＜＝num_views_minus_1；i++)			view_id[i]	ue(v)
for(i＝0；i＜＝num_views_minus_1；i++)			num_anchor_refs_I0[i]	ue(v)

for(j＝0；j＜num_anchor_refs_I0[i]；j++)
for(j＝0；j＜num_anchor_refs_I0[i]；j++)		anchor_ref_I0[i][j]	ue(v)
num_anchor_refs_I1[i]	ue(v)	anchor_ref_I0[i][j]	ue(v)
num_anchor_refs_I1[i]	ue(v)	for(j＝0；j＜num_anchor_refs_I1[i]；j++)
anchor_ref_I1[i][j]	ue(v)	for(j＝0；j＜num_anchor_refs_I1[i]；j++)
anchor_ref_I1[i][j]	ue(v)	}
for(i＝0；i＜＝num_views_minus_1；i++){		}
for(i＝0；i＜＝num_views_minus_1；i++){		num_non_anchor_refs_I0[i]	ue(v)
for(j＝0；j＜num_non_anchor_refs_I0[i]；j++)		num_non_anchor_refs_I0[i]	ue(v)
for(j＝0；j＜num_non_anchor_refs_I0[i]；j++)		non_anchor_ref_I0[i][j]	ue(v)
num_non_anchor_refs_I1[i]	ue(v)	non_anchor_ref_I0[i][j]	ue(v)
num_non_anchor_refs_I1[i]	ue(v)	for(j＝0；j＜num_non_anchor_ref_I1[i]；j++)
non_anchor_ref_I1[i][j]	ue(v)	for(j＝0；j＜num_non_anchor_ref_I1[i]；j++)
non_anchor_ref_I1[i][j]	ue(v)	}
pseudo_view_present_flag	u(1)	}
pseudo_view_present_flag	u(1)	if(pseudo_view_present_flag){
tiling_mode		if(pseudo_view_present_flag){
tiling_mode		org_pic_width_in_mbs_minus1
org_pic_height_in_mbs_minus1		org_pic_width_in_mbs_minus1
org_pic_height_in_mbs_minus1		for(i＝0；i＜num_views_minus_1；i++)
pseudo_view_info(i)；		for(i＝0；i＜num_views_minus_1；i++)
pseudo_view_info(i)；		}
}		}

表2根据本发明原理的实施例示出了用于表1的pseudo_view_info句法元素的句法元素。

表2

pseudo_view_info(pseudo_view_id){	C	描述符
pseudo_view_info(pseudo_view_id){	C	描述符	num_sub_views_minus_1[pseudo_view_id]	5	ue(v)
if(num_sub_views_minus_1！＝0){			num_sub_views_minus_1[pseudo_view_id]	5	ue(v)

for(i＝0；i＜num_sub_views_minus_1[pseudo_view_id]；i++){
for(i＝0；i＜num_sub_views_minus_1[pseudo_view_id]；i++){			sub_view_id[i]	5	ue(v)
num_parts_minus1[sub_view_id[i]]	5	ue(v)	sub_view_id[i]	5	ue(v)
num_parts_minus1[sub_view_id[i]]	5	ue(v)	for(j＝0；j＜＝num_parts_minus1[sub_view_id[i]]；j++){
loc_left_offset[sub_view_id[i]][j]	5	ue(v)	for(j＝0；j＜＝num_parts_minus1[sub_view_id[i]]；j++){
loc_left_offset[sub_view_id[i]][j]	5	ue(v)	loc_top_offset[sub_view_id[i]][j]	5	ue(v)
frame_crop_left_offset[sub_yiew_id[i]][j]	5	ue(v)	loc_top_offset[sub_view_id[i]][j]	5	ue(v)
frame_crop_left_offset[sub_yiew_id[i]][j]	5	ue(v)	frame_crop_right_offset[sub_view_id[i]][j]	5	ue(v)
frame_crop_top_offset[sub_view_id[i]][j]	5	ue(v)	frame_crop_right_offset[sub_view_id[i]][j]	5	ue(v)
frame_crop_top_offset[sub_view_id[i]][j]	5	ue(v)	frame_crop_bottom_offset[sub_view_id[i]][j]	5	ue(v)
}			frame_crop_bottom_offset[sub_view_id[i]][j]	5	ue(v)
}			if(tiling_mode＝＝0){
flip_dir[sub_view_id[i][j]	5	u(2)	if(tiling_mode＝＝0){
flip_dir[sub_view_id[i][j]	5	u(2)	upsample_view_flag[sub_view_id[i]]	5	u(1)
if(upsample_view_flag[sub_view_id[i]])			upsample_view_flag[sub_view_id[i]]	5	u(1)
if(upsample_view_flag[sub_view_id[i]])			upsample_filter[sub_view_id[i]]	5	u(2)
if(upsample_filter[sub_view_id[i]]＝＝3){			upsample_filter[sub_view_id[i]]	5	u(2)
if(upsample_filter[sub_view_id[i]]＝＝3){			vert_dim[sub_view_id[i]]	5	ue(v)
hor_dim[sub_view_id[i]]	5	ue(v)	vert_dim[sub_view_id[i]]	5	ue(v)
hor_dim[sub_view_id[i]]	5	ue(v)	quantizer[sub_view_id[i]]	5	ue(v)
for(yuv＝0；yuv＜3；yuv++){			quantizer[sub_view_id[i]]	5	ue(v)
for(yuv＝0；yuv＜3；yuv++){			for(y＝0；y＜vert_dim[sub_view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[sub_view_id[i]]-1；x++)			for(y＝0；y＜vert_dim[sub_view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[sub_view_id[i]]-1；x++)			filter_coeffs[sub_view_id[i]][yuv][y][x]	5	se(v)
}			filter_coeffs[sub_view_id[i]][yuv][y][x]	5	se(v)
}			}
}			}
}			}//if(tiling_mode＝＝0)
else if(tiling_mode＝＝1){			}//if(tiling_mode＝＝0)

pixel_dist_x[sub_view_id[i]]
pixel_dist_x[sub_view_id[i]]			pixel_dist_y[sub_view_id[i]]
for(j＝0；j＜＝num_parts[sub_view_id[i]]；j++){			pixel_dist_y[sub_view_id[i]]
for(j＝0；j＜＝num_parts[sub_view_id[i]]；j++){			num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]][j]
for(coeff_idx＝0；coeff_idx＜＝num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]][j]；j++)			num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i]][j]
			pixel_tiling_filter_coeffs[sub_view_id[i]][j]
}//for(j＝0；j＜＝num_parts[sub_view_id[i]]；j++)			pixel_tiling_filter_coeffs[sub_view_id[i]][j]
}//for(j＝0；j＜＝num_parts[sub_view_id[i]]；j++)			}//else if(tiling_mode＝＝1)
}//for(i＝0；i＜num_sub_views_minus_1；i++)			}//else if(tiling_mode＝＝1)
}//for(i＝0；i＜num_sub_views_minus_1；i++)			}//if(num_sub_views_minus_1！＝0)
}			}//if(num_sub_views_minus_1！＝0)

表1和表2中提出的句法元素的语义

pseudo_view_present_flag等于真表示某个视图是多个子视图的超级视图。

tiling_mode等于0表示子视图在图片级处铺砌。值1表示在像素级处完成铺砌。

新的SEI消息可使用尚未在MPEG-4 AVC标准或MPEG-4 AVC标准的扩展中使用的用于SEI有效载荷类型的值。新的SEI消息包括具有以下语义的若干句法元素。

num_coded_views_minus1加1表示比特流支持的所编码视图的数量。num_coded_views_minus1的值在0到1023的闭区间范围内。

org_pic_width_in_mbs_minus加1以宏块为单位指明每个视图中图片的宽度。

以宏块为单位用于图片宽度的变量按如下得到：

PicWidthInMbs＝org_pic_width_in_mbs_minus1+1

用于亮度分量的图片宽度变量按如下得到：

PicWidthInSamplesL＝PicWidthInMbs*16

用于色度分量的图片宽度变量按如下得到：

PicWidthInSamplesC＝PicWidthInMbs*MbWidthC

org_pic_height_in_mbs_minus1加1以宏块为单位指明每个视图中图片的高度。

以宏块为单位用于图片高度的变量按如下得到：

PicHeightInMbs＝org_pic_height_in_mbs_minus1+1

用于亮度分量的图片高度变量按如下得到：

PicHeightInSamplesL＝PicHeightInMbs*16

用于色度分量的图片高度变量按如下得到：

PicHeightInSamplesC＝PicHeightInMbs*MbHeightC

num_sub_views_minus1加1表示当前视图中包括的所编码子视图的数量。num_sub_views_minus1的值在0到1023的闭区间范围内。

sub_view_id[i]指明子视图的sub_view_id，其中解码顺序由i表示。

num_parts[sub_view_id[i]]指明sub_view_id[i]的图片分成的部分的数量。

loc_left_offset[sub_view_id[i]][j]和loc_top_offset[sub_view_id[i]][j]分别以左和上像素偏移量指明位置，其中当前部分j位于sub_view_id等于sub_view_id[i]的视图的最终重建图片中。

view_id[i]指明视图的view_id，其中编码顺序由i表示。

frame_crop_left_offset[view_id[i]][j]、frame_crop_right_offset[view_id[i]][j]、frame_crop_top_offset[view_id[i]][j]和frame_crop_bottom_offset[view_id[i]][j]根据以输出的帧坐标指定的矩形区域，指明作为num_parg j和view_id i的部分的所编码视频序列中图片的样本。

变量CropUnitX和CropUnitY按如下得到：

-如果chroma_format_idc等于0，则CropUnitX和CropUnitY按如下得到：

CropUnitX＝1

CropUnitY＝2-frame_mbs_only_flag

-否则(chroma_format_idc等于1、2、或3)，则CropUnitX和CropUnitY按如下得到：

CropUnitX＝SubWidthC

CropUnitY＝SubHeightC*(2-frame_mbs_only_fag)

帧修剪矩形包括亮度样本，亮度样本具有根据以下的水平帧坐标：

CropUnitX*frame_crop_left_offset到PicWidthInSamplesL-(CropUnitX*frame_crop_right_offset+1)和垂直帧坐标从CropUnitY*frame_crop_top_offset到(16*FrameHeightInMbs)-(CropUnitY*frame_crop_bottom_offset+1)，闭区间。frame_crop_left_offset的值将处于0到(PicWidthInSamplesL/CropUnitX)-(frame_crop_right_offset+1)的闭区间范围内；并且frame_crop_top_offset的值将处于0到(16*FrameHeightInMbs/CropUnitY)-(frame_crop_bottom_offset+1)的闭区间范围内。

当chroma_format_idc不等于0时，两个色度阵列的对应指定样本是具有帧坐标(x/SubWidthC，y/SubHeightC)的样本，其中(x，y)是指定亮度样本的帧坐标。

对于解码的域，所解码域的指定样本是落入帧坐标中指定的矩形内的样本。

num_parts[view_id[i]]指定了view_id[i]的图片分成的部分的数量。

depth_flag[view_id[i]]指定了当前部分是否为深度信号。如果depth_flag等于0，那么当前部分不是深度信号。如果depth_flag等于1，那么当前部分是关联于view_id[i]标识的视图的深度信号。

flip_dir[sub_view_id[i]][j]指定了当前部分的翻转方向。flip_dir等于0表示不翻转，flip_dir等于1表示在水平方向上翻转，flip_dir等于2表示在垂直方向上翻转，并且flip_dir等于3表示在水平和垂直方向上翻转。

flip_dir[view_id[i]][j]指定了当前部分的翻转方向。flip_dir等于0表示不翻转，flip_dir等于1表示在水平方向上翻转，flip_dir等于2表示在垂直方向上翻转，并且flip_dir等于3表示在水平和垂直方向上翻转。

loc_left_offset[view_id[i]][j]、loc_top_offset[view_id[i]][j]以像素偏移量指定了位置，其中当前部分j位于view_id等于view_id[i]的视图的最终重建图片中。

upsample_view_flag[view_id[i]]表示属于view_id[i]指定的视图的图片需要被升频采样。upsample_view_flag[view_id[i]]等于0指定了view_id等于view_id[i]的图片将不被升频采样。upsample_view_flag[view_id[i]]等于1指定了view_id等于view_id[i]的图片将被升频采样。

upsample_filter[view_id[i]]表示要用于升频采样的过滤器的类型。upsample_filter[view_id[i]]等于0表示将使用6开关AVC过滤器，upsample_filter[view_id[i]]等于1表示将使用4开关AVC过滤器，upsample_filter[view_id[i]]等于2表示将使用双线性AVC过滤器，upsample_filter[view_id[i]]等于3表示发送定制的过滤器系数。当upsample_filter[view_id[i]]不存在时它设置为0。在该实施例中，我们使用二维定制过滤器。它可容易地扩展到一维过滤器，和某些其它非线性过滤器。

vert_dim[view_id[i]]指定了定制二维过滤器的垂直尺寸。

hor_dim[view_id[i]]指定了定制二维过滤器的水平尺寸。

quantizer[view_id[i]]指定了用于每个过滤器系数的量化因子。

filter_coeffs[view_id[i]][yuv][y][x]指定了量化过滤器系数。yuv通知过滤器系数所应用的分量。yuv等于0指定了Y分量，yuv等于1指定了U分量，并且yuv等于2指定了V分量。

pixel_dist_x[sub_view_id[i]]和pixel_dist_y[sub_view_id[i]]分别指定了最终重建伪视图中sub_view_id等于sub_view_id[i]的视图中的邻近像素之间水平方向和垂直方向上的距离。

num_pixel_tiling_filter_coeffs_minus1[sub_view_id[i][j]加1表示当铺砌模式设置为等于1时过滤器系数的数量。

pixel_tiling_filter_coeffs[sub_view_id[i][j]通知表示可用于过滤所铺砌图片的过滤器所需的过滤器系数。

像素级处的铺砌示例

转到图22，示出了通过铺砌来自四个视图的像素构成伪视图的两个示例分别由标号2210和2220表示。四个视图共同由标号2250表示。用于图22中第一示例的句法值在下面的表3中提供。

表3

pseudo_view_info(pseudo_view_id){	值
pseudo_view_info(pseudo_view_id){	值	num_sub_views_minus_1[pseudo_view_id]	3
sub_view_id[0]	0	num_sub_views_minus_1[pseudo_view_id]	3
sub_view_id[0]	0	num_parts_minus1[0]	0
loc_left_offset[0][0]	0	num_parts_minus1[0]	0
loc_left_offset[0][0]	0	loc_top_offset[0][0]	0
pixel_dist_x[0][0]	0	loc_top_offset[0][0]	0
pixel_dist_x[0][0]	0	pixel_dist_y[0][0]	0
sub_view_id[1]	0	pixel_dist_y[0][0]	0
sub_view_id[1]	0	num_parts_minus1[1]	0
loc_left_offset[1][0]	1	num_parts_minus1[1]	0
loc_left_offset[1][0]	1	loc_top_offset[1][0]	0
pixel_dist_x[1][0]	0	loc_top_offset[1][0]	0
pixel_dist_x[1][0]	0	pixel_dist_y[1][0]	0
sub_view_id[2]	0	pixel_dist_y[1][0]	0
sub_view_id[2]	0	num_parts_minus1[2]	0
loc_left_offset[2][0]	0	num_parts_minus1[2]	0
loc_left_offset[2][0]	0	loc_top_offset[2][0]	1
pixel_dist_x[2][0]	0	loc_top_offset[2][0]	1
pixel_dist_x[2][0]	0	pixel_dist_y[2][0]	0
sub_view_id[3]	0	pixel_dist_y[2][0]	0
sub_view_id[3]	0	num_parts_minus1[3]	0
loc_left_offset[3][0]	1	num_parts_minus1[3]	0
loc_left_offset[3][0]	1	loc_top_offset[3][0]	1

pixel_dist_x[3][0]	0
pixel_dist_x[3][0]	0	pixel_dist_y[3][0]	0

用于图22中第二示例的句法值都是一样的，除了以下两个句法元素：loc_left_offset[3][0]等于5和loc_top_offset[3][0]等于3。

偏移量表示对应于视图的像素应当在某个偏移量位置处开始。这在图22中示出(2220)。这例如可在两个视图产生公共物体表现为从一个视图移动到另一个视图的图像时完成。例如，如果第一相机和第二相机(代表第一视图和第二视图)拍摄物体的图片，相比于第一视图，在第二视图中物体可表现为向右移动了五个像素。这意味着第一视图中的像素(i-5，j)对应于第二视图中的像素(i，j)。如果两个视图的像素仅逐像素地铺砌，那么可能在拼贴中的邻近像素之间不存在非常大的相关性，并且空间编码增益可能较小。相反，通过移动铺砌以使得来自视图一的像素(i-5，j)紧接着来自视图二的像素(i，j)放置，空间相关性可增加并且空间编码增益也可增加。这例如因为第一和第二视图中用于物体的对应像素彼此紧接着被铺砌而成立。

因此，loc_left_offset和loc_top_offset的存在可有利于编码效率。偏移量信息可由外部装置获得。例如，相机的位置信息或视图之间的全局差别矢量可用于确定这种偏移量信息。

作为偏移的结果，伪视图中的某些像素未从任何视图指派像素值。继续上面的示例，当将来自视图一的像素(i-5，j)铺砌在来自视图二的像素(i，j)旁边时，对于i＝0...4的值没有来自视图一的像素(i-5，j)要铺砌，所以那些像素在拼贴中是空白的。对于未从任何视图指派像素值的伪视图(拼贴)中的那些像素，至少一种实现使用类似于AVC中运动补偿中的子像素插值过程的插值过程。即，空白拼贴像素可从邻近像素插值得到。这种插值可导致拼贴中更大的空间相关性和用于拼贴的更大编码增益。

在视频编码中，我们可选择用于每个图片的不同编码类型，例如I、P、和B图片。另外，对于多视图视频编码，我们定义锚图片和非锚图片。在实施例中，我们提出可基于图片类型进行编组的判定。在高级别句法中通知该编组信息。

转到图11，单个帧上铺砌五个视图的示例一般地由标号1100表示。特别是，舞厅序列用单个帧上铺砌的五个视图示出。另外，可看到，五个视图分为两部分，以使得它可布置在矩形帧上。这里，每个视图是QVGA尺寸，所以总的帧尺寸是640×600。因为600不是16的倍数，所以它应当扩展到608。

对于该示例，可能的SEI消息可如表4中所示。

表4

multiview_display_info(payloadSize){	值
multiview_display_info(payloadSize){	值	num_coded_views_minus1	5
org_pic_width_in_mbs_minus1	40	num_coded_views_minus1	5
org_pic_width_in_mbs_minus1	40	org_pic_height_in_mbs_minus1	30
		org_pic_height_in_mbs_minus1	30
		view_id[0]	0
num_parts[view_id[0]]	1	view_id[0]	0
num_parts[view_id[0]]	1
depth_flag[view_id[0]][0]	0
depth_flag[view_id[0]][0]	0	flip_dir[view_id[0]][0]	0
loc_left_offset[view_id[0]][0]	0	flip_dir[view_id[0]][0]	0
loc_left_offset[view_id[0]][0]	0	loc_top_offset[view_id[0]][0]	0
frame_crop_left_offset[view_id[0]][0]	0	loc_top_offset[view_id[0]][0]	0
frame_crop_left_offset[view_id[0]][0]	0	frame_crop_right_offset[view_id[0]][0]	320
frame_crop_top_offset[view_id[0]][0]	0	frame_crop_right_offset[view_id[0]][0]	320
frame_crop_top_offset[view_id[0]][0]	0	frame_crop_bottom_offset[view_id[0]][0]	240
		frame_crop_bottom_offset[view_id[0]][0]	240
		upsample_view_flag[view_id[0]]	1
if(upsample_view_flag[view_id[0]]){		upsample_view_flag[view_id[0]]	1
if(upsample_view_flag[view_id[0]]){		vert_dim[view_id[0]]	6
hor_dim[view_id[0]]	6	vert_dim[view_id[0]]	6

quantizer[view_id[0]]	32
quantizer[view_id[0]]	32	for(yuv＝0；yuv＜3；yuv++){
for(y＝0；y＜vert_dim[view_id[i]]-1；y++){		for(yuv＝0；yuv＜3；yuv++){
for(y＝0；y＜vert_dim[view_id[i]]-1；y++){		for(x＝0；x＜hor_dim[view_id[i]]-1；x++)
filter_coeffs[view_id[i]][yuv][y][x]	XX	for(x＝0；x＜hor_dim[view_id[i]]-1；x++)
filter_coeffs[view_id[i]][yuv][y][x]	XX

		view_id[1]	1
num_parts[view_id[1]]	1	view_id[1]	1
num_parts[view_id[1]]	1
depth_flag[view_id[0]][0]	0
depth_flag[view_id[0]][0]	0	flip_dir[view_id[1]][0]	0
loc_left_offset[view_id[1]][0]	0	flip_dir[view_id[1]][0]	0
loc_left_offset[view_id[1]][0]	0	loc_top_offset[view_id[1]][0]	0
frame_crop_left_offset[view_id[1]][0]	320	loc_top_offset[view_id[1]][0]	0
frame_crop_left_offset[view_id[1]][0]	320	frame_crop_right_offset[view_id[1]][0]	640
frame_crop_top_offset[view_id[1]][0]	0	frame_crop_right_offset[view_id[1]][0]	640
frame_crop_top_offset[view_id[1]][0]	0	frame_crop_bottom_offset[view_id[1]][0]	320
		frame_crop_bottom_offset[view_id[1]][0]	320
		upsample_view_flag[view_id[1]]	1
if(upsample_view_flag[view_id[1]]){		upsample_view_flag[view_id[1]]	1
if(upsample_view_flag[view_id[1]]){		vert_dim[view_id[1]]	6
hor_dim[view_id[1]]	6	vert_dim[view_id[1]]	6
hor_dim[view_id[1]]	6	quantizer[view_id[1]]	32
for(yuv＝0；yuv＜3；yuv++){		quantizer[view_id[1]]	32
for(yuv＝0；yuv＜3；yuv++){		for(y＝0；y＜vert_dim[view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[view_id[i]]-1；x++)		for(y＝0；y＜vert_dim[view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[view_id[i]]-1；x++)		filter_coeffs[view_id[i]][yuv][y][x]	XX
		filter_coeffs[view_id[i]][yuv][y][x]	XX



......(对于视图2、3来说类似)
......(对于视图2、3来说类似)
view_id[4]	4
view_id[4]	4	num_parts[view_id[4]]	2
		num_parts[view_id[4]]	2
		depth_flag[view_id[0]][0]	0
flip_dir[view_id[4]][0]	0	depth_flag[view_id[0]][0]	0
flip_dir[view_id[4]][0]	0	loc_left_offset[view_id[4]][0]	0
loc_top_offset[view_id[4]][0]	0	loc_left_offset[view_id[4]][0]	0
loc_top_offset[view_id[4]][0]	0	frame_crop_left_offset[view_id[4]][0]	0
frame_crop_right_offset[view_id[4]][0]	320	frame_crop_left_offset[view_id[4]][0]	0
frame_crop_right_offset[view_id[4]][0]	320	frame_crop_top_offset[view_id[4]][0]	480
frame_crop_bottom_offset[view_id[4]][0]	600	frame_crop_top_offset[view_id[4]][0]	480
frame_crop_bottom_offset[view_id[4]][0]	600
flip_dir[view_id[4]][1]	0
flip_dir[view_id[4]][1]	0	loc_left_offset[view_id[4]][1]	0
loc_top_offset[view_id[4]][1]	120	loc_left_offset[view_id[4]][1]	0
loc_top_offset[view_id[4]][1]	120	frame_crop_left_offset[view_id[4]][1]	320
frame_crop_ight_offset[view_id[4]][1]	640	frame_crop_left_offset[view_id[4]][1]	320
frame_crop_ight_offset[view_id[4]][1]	640	frame_crop_top_offset[view_id[4]][1]	480
frame_crop_bottom_offset[view_id[4]][1]	600	frame_crop_top_offset[view_id[4]][1]	480
frame_crop_bottom_offset[view_id[4]][1]	600

		upsample_view_flag[view_id[4]]	1
if(upsample_view_flag[view_id[4]]){		upsample_view_flag[view_id[4]]	1
if(upsample_view_flag[view_id[4]]){		vert_dim[view_id[4]]	6
hor_dim[view_id[4]]	6	vert_dim[view_id[4]]	6

quantizer[view_id[4]]	32
quantizer[view_id[4]]	32	for(yuv＝0；yuv＜3；yuv++){
for(y＝0；y＜vert_dim[view_id[i]]-1；y++){		for(yuv＝0；yuv＜3；yuv++){
for(y＝0；y＜vert_dim[view_id[i]]-1；y++){		for(x＝0；x＜hor_dim[view_id[i]]-1；x++)
filter_coeffs[view_id[i]][yuv][y][x]	XX	for(x＝0；x＜hor_dim[view_id[i]]-1；x++)
filter_coeffs[view_id[i]][yuv][y][x]	XX

表5示出了用于表4中示出的示例，发送多视图信息的一般句法结构。

表5

multiview_display_info(payloadSize){	C	描述符
multiview_display_info(payloadSize){	C	描述符	num_coded_views_minus1	5	ue(v)
org_pic_width_in_mbs_minus1	5	ue(v)	num_coded_views_minus1	5	ue(v)
org_pic_width_in_mbs_minus1	5	ue(v)	org_pic_height_in_mbs_minus1	5	ue(v)
for(i＝0；i＜＝num_coded_views_minus1；i++){			org_pic_height_in_mbs_minus1	5	ue(v)
for(i＝0；i＜＝num_coded_views_minus1；i++){			view_id[i]	5	ue(v)
num_parts[view_id[i]]	5	ue(v)	view_id[i]	5	ue(v)
num_parts[view_id[i]]	5	ue(v)	for(j＝0；j＜＝num_parts[i]；j++){
depth_flag[view_id[i]][j]			for(j＝0；j＜＝num_parts[i]；j++){
depth_flag[view_id[i]][j]			flip_dir[view_id[i]][j]	5	u(2)
loc_left_offset[view_id[i]][j]	5	ue(v)	flip_dir[view_id[i]][j]	5	u(2)
loc_left_offset[view_id[i]][j]	5	ue(v)	loc_top_offset[view_id[i]][j]	5	ue(v)
frame_crop_left_offset[view_id[i]][j]	5	ue(v)	loc_top_offset[view_id[i]][j]	5	ue(v)
frame_crop_left_offset[view_id[i]][j]	5	ue(v)	frame_crop_right_offset[view_id[i]][j]	5	ue(v)
frame_crop_top_offset[view_id[i]][j]	5	ue(v)	frame_crop_right_offset[view_id[i]][j]	5	ue(v)
frame_crop_top_offset[view_id[i]][j]	5	ue(v)	frame_crop_bottom_offset[view_id[i]][j]	5	ue(v)
}			frame_crop_bottom_offset[view_id[i]][j]	5	ue(v)
}			upsample_view_flag[view_id[i]]	5	u(1)
if(upsample_view_flag[view_id[i]])			upsample_view_flag[view_id[i]]	5	u(1)
if(upsample_view_flag[view_id[i]])			upsample_filter[view_id[i]]	5	u(2)

if(upsample_filter[view_id[i]]＝＝3){
if(upsample_filter[view_id[i]]＝＝3){			vert_dim[view_id[i]]	5	ue(v)
hor_dim[view_id[i]]	5	ue(v)	vert_dim[view_id[i]]	5	ue(v)
hor_dim[view_id[i]]	5	ue(v)	quantizer[view_id[i]]	5	ue(v)
for(yuv＝0；yuv＜3；yuv++){			quantizer[view_id[i]]	5	ue(v)
for(yuv＝0；yuv＜3；yuv++){			for(y＝0；y＜vert_dim[view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[view_id[i]]-1；x++)			for(y＝0；y＜vert_dim[view_id[i]]-1；y++){
for(x＝0；x＜hor_dim[view_id[i]]-1；x++)			filter_coeffs[view_id[i]][yuv][y][x]	5	se(v)
}			filter_coeffs[view_id[i]][yuv][y][x]	5	se(v)
}			}
}			}
}			}
}			}

参考图23，示出了视频处理设备2300。视频处理设备2300例如可以是机顶盒或接收编码视频并且例如提供解码视频用于向用户显示或用于存储的其它设备。因此，设备2300可向电视、计算机监视器、或计算机或其它处理设备提供它的输出。

设备2300包括接收数据信号2320的解码器2310。数据信号2320例如可包括AVC或MVC兼容的流。解码器2310解码所接收信号2320的全部或部分，并且作为输出提供解码视频信号2330和铺砌信息2340。解码视频2330和铺砌信息2340提供到选择器2350。设备2300还包括接收用户输入2370的用户接口2360。用户接口2360基于用户输入2370向选择器2350提供图片选择信号2380。图片选择信号2380和用户输入2370表示用户期望显示多个图片中的哪一个。选择器2350提供所选择图片作为输出2390。选择器2350使用图片选择信息2380来选择解码视频2330中的哪些图片来作为输出2390提供。选择器2350使用铺砌信息2340来定位解码视频2330中的所选择图片。

在各种实现中，选择器2350包括用户接口2360，并且在其它实现中不需要用户接口2360，因为选择器2350直接接收用户输入2370，不需要执行单独的接口功能。选择器2350例如可以软件或者作为集成电路实现。选择器2350还可合并解码器2310。

更通常地，本申请中描述的各种实现的解码器可提供包括整个拼贴的解码输出。附加地或者作为候选，解码器可提供包括来自拼贴的仅一个或更多所选择图片(例如图像或深度信号)的解码输出。

如上所述，高级别句法可用于根据本发明原理的一个或多个实施例执行信号通知。高级别句法例如可用于但不限于发信号通知以下任何一个：更大帧中存在的编码视图的数量；所有视图的原始宽度和高度；对于每个所编码视图，对应于视图的视图标识符；对于每个所编码视图，视图的帧分成的部分的数量；对于视图的每个部分，翻转方向(其例如可以是不翻转，仅水平翻转，仅垂直翻转，或者水平和垂直翻转)；对于视图的每个部分，当前部分在视图的最终帧中所属的以像素或宏块数表示的左位置；对于视图的每个部分，当前部分在视图的最终帧中所属的以像素或宏块数表示的上位置；对于视图的每个部分，当前较大解码/编码帧中以像素或宏块数表示的修剪窗口的左位置；对于视图的每个部分，当前较大解码/编码帧中以像素或宏块数表示的修剪窗口的右位置；对于视图的每个部分，当前较大解码/编码帧中以像素或宏块数表示的修剪窗口的上位置；以及对于视图的每个部分，当前较大解码/编码帧中以像素或宏块数表示的修剪窗口的下位置；对于每个编码视图，在输出之前视图是否需要被升频采样(其中，如果需要执行升频采样，则高级别句法可用于表示升频采样的方法(包括但不限于AVC 6开关过滤器、SVC 4开关过滤器、双线性过滤器或定制一维、二维线性或非线性过滤器))。

要注意，术语“编码器”和“解码器”包含一般的结构并且不限于任何特定的功能或特征。例如，解码器可接收携带编码比特流的调制载波，并且解调编码的比特流，以及对该比特流进行解码。

已描述了各种方法。详述了许多这些方法以提供足够的公开。然而要注意，预期有可改变为这些方法描述的一个或许多特定特征的变化。此外，所述的许多特征是领域中已知的并且因此没有更详细地描述。

此外，对于在多种实现中使用用于发送某些信息的高级别句法做出引用。然而应当理解，其它实现使用低级别句法，或者实际上完全使用其它机制(例如发送作为编码数据一部分的信息)来提供相同信息(或该信息的变化)。

各种实现提供铺砌和适当的信号通知以允许多个视图(更一般而言，图片)铺砌到单个图片内，编码为单个图片，并且作为单个图片发送。信号通知信息可允许后处理器将视图/图片分离。而且，铺砌的多个图片可以是视图，但是至少一个图片可以是深度信息。这些实现可提供一个或多个优点。例如，用户可能想要以铺砌方式显示多个视图，并且这些各种实现通过在以铺砌方式编码和发送/存储视图之前铺砌它们，提供了有效的方式来编码和发送或存储这些视图。

在AVC和/或MVC的上下文中铺砌多个视图的实现也提供了另外的优点。AVC表面上仅用于单个视图，所以不预期另外的视图。然而，这些基于AVC的实现可在AVC环境中提供多个视图，因为铺砌的视图可布置为例如使得解码器知道铺砌的图片属于不同的视图(例如伪视图中的左上图片是视图一，右上图片是视图二，等等)。

另外，MVC已经包括多个视图，所以不预期多个视图包括在单个伪视图中。此外，MVC有可支持的视图数量的限制，并且这些基于MVC的实现通过允许(如在基于AVC的实现中一样)铺砌另外的视图有效地增加了可支持的视图数量。例如，每个伪视图可对应于MVC的所支持视图之一，并且解码器可知道每个“所支持视图”实际上按预布置铺砌顺序包括四个视图。因此，在这种实现中，可能视图的数量是“所支持视图”数量的四倍。

这里描述的实现例如可以方法或过程、装置、或软件程序实现。即使仅仅在单个形式实现(例如仅仅作为方法论述)的上下文中论述，论述的特征的实现也可以其它形式(例如装置或程序)实现。装置例如可以适当的硬件、软件、和固件实现。方法例如可以装置实现，装置例如为处理器，其通常指代处理设备，例如包括计算机、微处理器、集成电路、或可编程逻辑设备。处理设备还包括通信设备，例如计算机、移动电话、便携式/个人数字助理(“PDA”)、和便于终端用户之间的信息通信的其它设备。

这里描述的各种过程和特征的实现可体现为多种不同的装备或应用，特别是例如关联于数据编码和解码的装备或应用。装备的示例包括视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、便携式电脑、个人计算机、移动电话、PDA、和其它通信设备。如应当清楚的，装备可以是移动的并且甚至安装在机动车辆中。

另外，可由处理器执行的指令实现方法，并且这些指令可存储在处理器可读的介质上，例如集成电路、软件载体或其它存储设备，例如硬盘、光盘、随机访问存储器(“RAM”)、或只读存储器(“ROM”)。指令可形成明白地体现在处理器可读的介质上的应用程序。如应当清楚的，处理器可包括处理器可读的介质，所述例如具有指令用于执行过程。这些应用程序可上载到包括任何适当体系结构的机器并且由其执行。优选地，机器在具有例如一个或多个中央处理器(“CPU”)、随机访问存储器(“RAM”)、和输入/输出(“I/O”)接口的硬件的计算机平台上实现。计算机平台也可包括操作系统和微指令代码。这里描述的各种过程和功能可以是微指令代码的一部分或者应用程序的一部分，或者其任意组合，其可由CPU执行。另外，各种其它外围单元可连接到计算机平台，例如另外的数据存储单元和打印单元。

如本领域技术人员应当明白的，实现也可产生格式化的信号以携带例如可被存储或发送的信息。信息例如可包括用于执行方法的指令，或者所述实现之一产生的数据。该信号例如可格式化为电磁波(例如使用光谱的射频部分)或者格式化为基带信号。格式化例如可包括编码数据流、产生句法、和用所编码数据流和句法调制载波。信号携带的信息例如可以是模拟或数字信息。信号可经由各种不同的有线或无线链路发送，如已知的。

应当进一步理解，因为附图中描绘的某些组成的系统组件和方法优选地以软件实现，系统组件或过程功能块之间的实际连接可根据本发明原理被编程的方式而不同。给出这里的教导，有关领域的普通技术人员将能够预期本发明原理的这些和类似实现或结构。

描述了许多实现。然而，将会理解可进行各种修改。例如，不同实现的元素可组合、补充、修改、或移除以产生其它实现。另外，普通技术人员将会理解，其它结构和过程可代替所公开的，并且得到的实现将以至少基本相同的方式执行至少基本相同的功能，以实现与所公开实现至少基本相同的结果。特别是，尽管这里已相关于附图描述了说明性实施例，应当理解，本公开不限于那些精确的实施例，并且有关领域普通技术人员可在其中实现各种改变和修改，而不会偏离本发明原理的范围或精神。因此，这些和其它实现通过该应用预期并且处于以下权利要求的范围内。

Claims

1.一种方法，包括：

访问包括组合成单个图片的多个图片的视频图片(826)；

访问表示所述访问的视频图片中的所述多个图片如何组合的信息(806、808、822)；

解码所述视频图片以提供所述组合的多个图片的解码表示(824、826)；和

将所述访问的信息和所述解码的视频图片作为输出提供(824、826)。

2.根据权利要求1所述的方法，其中所述多个图片包括来自第一视图的第一图片，和来自第二视图的第二图片(826)。

3.根据权利要求2所述的方法，其中所述第一图片的内容与所述第二图片的内容重叠(826)。

4.根据权利要求1所述的方法，其中所述多个图片包括来自第一视图的第一图片，和包括用于所述第一图片的深度信息的第二图片(826)。

5.根据权利要求1所述的方法，其中：

访问所述视频图片包括访问根据将所有图片视为来自单个视图的单视图视频标准提供的视频图片(824)，并且

访问所述信息包括访问根据所述单视图视频标准提供的信息(804)，

以使得对所述解码的视频图片和所述访问的信息的提供使得能够通过所述单视图视频标准支持多视图(826)。

6.根据权利要求1所述的方法，其中：

访问所述视频图片包括访问根据多视图视频标准提供的视频图片，所述多视图视频标准通过提供用于给定图片的视图标识符来显式地支持多视图，所述视图标识符表示所述多个视图中的哪个对应于所述给定图片(1620)，并且

访问所述信息包括访问根据所述多视图视频标准提供的信息(1650)，

以使得对所述解码的视频图片和所述访问的信息的提供使得能够通过所述多视图视频标准提供多于所述多视图的支持。

7.根据权利要求1所述的方法，其中所述访问的信息表示所述视频图片内的所述多个图片中至少一个图片的位置和方向这两者中的至少一个(822)。

8.根据权利要求1所述的方法，其中所述访问的信息表示所述多个图片以按像素方式组合(1738)。

9.根据权利要求8所述的方法，其中所述多个图片的像素被偏移以便对准来自于所述多个视图的类似内容(1738)。

10.根据权利要求1所述的方法，其中所述视频图片的访问、所述信息的访问、所述视频图片的解码、以及所述访问的信息和所述解码的视频图片的提供在解码器处执行(1650)。

11.根据权利要求1所述的方法，其中所述信息包括在至少一个高级别句法元素中(804)。

12.根据权利要求11所述的方法，其中所述高级别句法元素包括在薄片头部、序列参数集、图片参数集、视图参数集、网络抽象层单元头部、和补充增强信息消息中的至少一个中(804)。

13.根据权利要求1所述的方法，其中所述多个图片中的至少一个表示深度信息(826、822)。

14.一种装置，包括：

解码器(400，1100)，用于访问包括组合成单个图片的多个图片的视频图片，访问表示所述访问的视频图片中的所述多个图片如何组合的信息，解码所述视频图片以提供所述组合的多个图片的解码表示，和将所述访问的信息和所述解码的视频图片作为输出提供。

15.根据权利要求14所述的装置，其中所述多个图片包括来自第一视图的第一图片，和包括用于所述第一图片的深度信息的第二图片。

16.根据权利要求14所述的装置，其中所述多个图片中的至少一个表示深度信息。

17.一种方法，包括：

生成表示视频图片中包括的多个图片如何组合成单个图片的信息(504)；

编码所述视频图片以提供所述组合的多个图片的编码表示(526)；并且

将所述生成的信息和编码的视频图片作为输出提供(524)。

18.根据权利要求17所述的方法，其中所述多个图片包括来自第一视图的第一图片，和来自第二视图的第二图片(504)。

19.根据权利要求18所述的方法，其中所述第一图片的内容与所述第二图片的内容重叠(526)。

20.根据权利要求17所述的方法，其中所述多个图片包括来自第一视图的第一图片，和包括用于所述第一图片的深度信息的第二图片(704)。

21.根据权利要求17所述的方法，其中：

生成所述信息包括根据将所有图片视为来自单个视图的单视图视频标准生成信息，以使得对所述编码的视频图片和所述生成的信息的提供使得能够通过所述单视图视频标准支持多视图(526)。

22.根据权利要求17所述的方法，其中，生成所述信息包括根据多视图视频标准来生成信息(1410)，所述多视图视频标准通过提供用于给定图片的视图标识符来显式地支持多视图(1420)，所述视图标识符表示所述多个视图中的哪个对应于所述给定图片，以使得对所述编码的视频图片和所述生成的信息的提供(1450)使得能够通过所述多视图视频标准提供多于所述多视图的支持。

23.根据权利要求17所述的方法，其中所述生成的信息表示所述视频图片内的所述多个图片中至少一个图片的位置和方向这两者中的至少一个(522)。

24.根据权利要求17所述的方法，其中所述生成的信息表示所述多个图片以按像素方式组合(1538)。

25.根据权利要求24所述的方法，其中所述多个图片的像素偏移以便对准来自于所述多个视图的类似内容(1538)。

26.根据权利要求17所述的方法，其中所述信息的生成(524)、所述视频图片的编码(526)、以及所述生成的信息和所述编码的视频图片的提供在编码器处执行(524)。

27.根据权利要求17所述的方法，其中所述生成的信息包括在至少一个高级别句法元素中(524)。

28.根据权利要求27所述的方法，其中所述高级别句法元素包括在薄片头部、序列参数集、图片参数集、视图参数集、网络抽象层单元头部、和补充增强信息消息中的至少一个中(524)。

29.根据权利要求17所述的方法，其中所述多个图片中的至少一个表示深度信息(704)。

30.一种装置，包括：

编码器(300，1000)，用于生成表示视频图片中包括的多个图片如何组合成单个图片的信息，编码所述视频图片以提供所述组合的多个图片的编码表示，和将所述生成的信息和编码的视频图片作为输出提供。

31.根据权利要求所述的装置，其中所述多个图片包括来自第一视图的第一图片，和包括用于所述第一图片的深度信息的第二图片。

32.一种装置，包括：

用于访问包括组合成单个图片的多个图片的视频图片的装置；

用于访问表示所述访问的视频图片中的所述多个图片如何组合的信息的装置；

用于解码所述视频图片以提供所述组合的多个图片的解码表示的装置；和

用于将所述访问的信息和所述解码的视频图片作为输出提供的装置。

33.一种装置，包括：

用于生成表示视频图片中包括的多个图片如何组合成单个图片的信息的装置；

用于编码所述视频图片以提供所述组合的多个图片的编码表示的装置；和

用于将所述生成的信息和编码的视频图片作为输出提供的装置。

34.一种用于视频编码的视频信号结构，包括：

表示单个视频图片中包括的多个图片如何组合成所述单个视频图片的信息；和

所述组合的多个图片的编码表示。

35.一种具有视频信号结构的计算机可读介质，所述视频信号结构包括：

所述组合的多个图片的编码表示。

36.一种视频信号，格式化为包括：

所述组合的多个图片的编码表示。

37.一种在其上包含有计算机可读程序代码的计算机可读介质，所述计算机可读程序代码包括：

用于访问包括组合成单个图片的多个图片的视频图片的程序代码(826)；

用于访问表示所述访问的视频图片中的所述多个图片如何组合的信息的程序代码(806、808、822)；

用于解码所述视频图片以提供所述组合的多个图片的解码表示的程序代码(824、826)；和

用于将所述访问的信息和所述解码的视频图片作为输出提供的程序代码(824、826)。

38.一种在其上包含有计算机可读程序代码的计算机可读介质，所述计算机可读程序代码包括：

用于生成表示视频图片中包括的多个图片如何组合成单个图片的信息的程序代码；

用于编码所述视频图片以提供所述组合的多个图片的编码表示的程序代码；和

用于将所述生成的信息和编码的视频图片作为输出提供的程序代码。

39.一种装置，包括配置为至少执行至少处理的处理器：

访问包括组合成单个图片的多个图片的视频图片(826)；

40.一种装置，包括配置为至少执行以下处理的处理器：

生成表示视频图片中包括的多个图片如何组合成单个图片的信息；

编码所述视频图片以提供所述组合的多个图片的编码表示；和

将所述生成的信息和编码的视频图片作为输出提供。

41.一种方法，包括：

访问包括组合成单个图片的多个图片的视频图片(826)；

访问表示所述访问的视频图片中的多个图片如何组合的信息(806、808、822)；

解码所述视频图片以提供所述多个图片中至少一个的解码表示(824、826)；和

将所述访问的信息和所述解码表示作为输出提供(824、826)。

42.一种方法，包括：

访问包括组合为单个图片的多个图片的视频图片(826)；

解码所述视频图片以提供所述组合的多个图片的解码表示(824、826)；

接收选择所述多个图片中的至少一个以用于显示的用户输入(2370、2380)；

提供所述至少一个所选择图片的解码输出，所述解码输出是基于所述访问的信息、所述解码表示、和所述用户输入而提供的(2390)。

43.一种设备，包括：

解码器(400、1100、2310)，用于访问包括组合为单个图片的多个图片的视频图片，访问表示所述访问的视频图片中的多个图片如何组合的信息，并且解码所述视频图片以提供所述组合的多个图片的解码表示；

接口(2360)，接收选择所述多个图片中的至少一个以用于显示的用户输入；和

装置(2350)，用于提供所述至少一个所选择图片的解码输出，所述解码输出是基于所述访问的信息、所述解码表示、和所述用户输入而提供的。