CN103493483A

CN103493483A - 译码多视图视频加深度内容

Info

Publication number: CN103493483A
Application number: CN201280018874.9A
Authority: CN
Inventors: 陈盈; 张�荣; 马尔塔·卡切维奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-03-10
Filing date: 2012-03-08
Publication date: 2014-01-01
Anticipated expiration: 2032-03-08
Also published as: WO2012122364A1; KR101521373B1; JP2014514799A; ES2692721T3; EP2684372A1; HUE040109T2; CN103493483B; US20120229602A1; KR20130141674A; US9565449B2; EP2684372B1; JP5698391B2

Abstract

本发明描述用于对3D视频块单元进行译码的技术。在一个实例中，视频编码器经配置以：接收来自图像的至少一部分的一个或一个以上纹理分量，所述图像表示三维视频数据的视图；接收所述图像的至少所述部分的深度图分量；对块单元进行译码，所述块单元指示所述图像的一部分的所述一个或一个以上纹理分量和所述深度图分量的像素。所述译码包括：接收视频数据的视图的时间实例的纹理数据；接收对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及囊封所述视图的所述时间实例的视图分量中的所述纹理数据和所述深度数据，使得所述纹理数据和所述深度数据被囊封于共同位流内。

Description

译码多视图视频加深度内容

本申请案涉及2011年3月10日申请的第61/451,333号美国临时申请案和2011年5月18日申请的第61/487,587号美国临时申请案，所述申请案中的每一者的全文特此以引用的方式并入。

技术领域

本发明涉及视频译码的领域，具体来说是3维视频内容译码。

背景技术

数字视频能力可并入到广泛范围的装置中，所述装置包含数字电视、数字直播系统、例如无线电电话手持机等无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上计算机、数码相机、数字记录装置、视频游戏装置、视频游戏控制台等等。数字视频装置实施视频压缩技术，例如，MPEG-2、MPEG-4或H.264/MPEG-4第10部分(高级视频译码(AVC))，以更有效率地发射和接收数字视频。视频压缩技术执行空间预测和时间预测，以减少或移除视频序列中所固有的冗余。

视频压缩技术执行空间预测和/或时间预测，以减少或移除视频序列中所固有的冗余。对于基于块的视频译码，可将视频帧或片段分割成若干宏块。可进一步分割每一宏块。使用关于相邻宏块的空间预测来对经帧内译码的(I)帧或片段中的宏块进行编码。经帧间译码的(P或B)帧或片段中的宏块可使用关于同一帧或片段中的相邻宏块的空间预测或关于其它参考帧的时间预测。

在已对视频数据进行编码之后，视频数据可包化以供发射或存储。视频数据可编译成符合多种标准中的任一者的视频文件，所述标准例如国际标准化组织(ISO)基础媒体文件格式及其扩展，例如AVC。

已致力于开发基于H.264/AVC的新视频译码标准。一个此种标准是可分级视频译码(SVC)标准，其是H.264/AVC的可分级扩展。另一标准是多视图视频译码(MVC)，其已变成H.264/AVC的多视图扩展。MVC的联合草案是描述在2008年7月德国汉诺威第28届JVT会议上提出的JVT-AB204“多视图视频译码的联合草案8.0”中，所述草案的获得地址是http：//wftp3.itu.int/av-arch/jvt-site/2008_07_Hannover/JVT-AB204.zip。AVC标准的版本是描述在2009年2月瑞士日内瓦第30届JVT会议上提出的JVT-AD007，“对ITU-T Rec.H.264|ISO/IEC 14496-10高级视频译码的编辑草案修订-为ITU-T SG 16AAP同意准备(综合形式)(Editors′draft revision to ITU-T Rec.H.264|ISO/IEC 14496-10Advanced Video Coding-in preparation for ITU-T SG 16 AAP Consent(in integrated form))”中，所述修订的获得地址是http：//wftp3.itu.int/av-arch/jvt-site/2009_01_Geneva/JVT-AD007.zip。此文档整合了AVC规范中的SVC以及MVC。

发明内容

一般来说，本发明描述用于支持包含纹理和深度信息的视频数据的译码的技术。纹理信息指代用于呈现二维图片的信息，例如亮度(辉度)和色度(颜色)信息。深度信息可包含可用于形成三维视频的信息，例如深度图(例如，在逐像素基础上的深度值)或视差图(例如，在逐像素基础上的水平视差)。

一般来说，本发明描述用于支持三维(3D)视频呈现的技术。具体来说，本发明的技术涉及对具有纹理和深度分量的3D视频内容进行译码和解码。本发明还提出用于视频数据的发信号技术。深度分量可来自图像的深度图。在3D图像呈现中，深度图包含深度分量，且可用于从提供的检视视角产生虚拟视图。所述发信号技术可包含用信号发出纹理和深度视图分量、深度视图分量的预测相依性、视图分量内的深度视图分量与其对应纹理视图分量的相依性，以及纹理视图分量是否可取决于用于(例如)视图合成预测的其它时刻的深度视图分量。所述发信号还可包含提供与每一视图相关联的相机参数。经译码块单元(在本发明中也被简称作“经译码块”)可对应于ITU-T H.264/AVC(高级视频译码)中的宏块或高效率视频译码(HEVC)的译码单元。

在本发明的一个实例中，视图分量的纹理NAL和深度NAL可以按照连续方式(例如，VCL NAL单元译码次序)组织。在一些实例中，可利用发信号技术，其可包含(例如)用新NAL单元类型或在NAL单元标头中指示NAL单元是否属于深度视图分量，从纹理视图分量预测对应深度视图分量。在其它实例中，可用信号发出与相机和深度内容有关的参数。举例来说，所述参数可包含共同的内在相机参数和外在相机参数、从经量化深度值到真实世界深度值的映射、不同的外在相机参数(例如，每一视图的平移)等等。

在一个实例中，本发明是针对一种对视频数据进行译码的方法，所述方法包括：接收纹理视图分量，所述纹理视图分量包括在视频数据的视图的时间实例内的纹理数据；接收深度视图分量，所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及囊封在所述视图的所述时间实例内的视图分量中的所述纹理视图分量和所述深度视图分量，使得所述纹理视图分量和所述深度视图分量囊封于共同位流中。

在另一实例中，本发明是针对一种用于处理视频数据的装置，所述装置包括视频译码器，所述视频译码器经配置以：接收纹理视图分量，所述纹理视图分量包括在视频数据的视图的时间实例内的纹理数据；接收深度视图分量，所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及囊封在所述视图的所述时间实例内的视图分量中的纹理视图分量和所述深度视图分量，使得所述纹理视图分量和所述深度视图分量囊封于共同位流中。

在又一实例中，本发明是针对一种用于处理视频数据的装置，所述装置包括：用于接收纹理视图分量的装置，所述纹理视图分量包括在视频数据的视图的时间实例内的纹理数据；用于接收深度视图分量的装置，所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及用于囊封在所述视图的所述时间实例内的视图分量中的所述纹理视图分量和所述深度视图分量以使得所述纹理视图分量和所述深度视图分量囊封于共同位流中的装置。

本发明中所描述的技术可以用硬件、软件、固件或其任一组合来实施。如果以软件来实施，那么可在处理器中执行软件，所述处理器可指代一种或一种以上处理器，例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)或其它等效集成或离散逻辑电路。可在最初将包括指令以执行所述技术的软件存储于计算机可读媒体中且由处理器加载并执行。

因此，本发明也是针对一种包括计算机可读存储媒体的计算机程序产品，所述计算机可读存储媒体上存储有指令，所述指令在执行时致使视频编码装置的处理器：接收纹理视图分量，所述纹理视图分量包括在视频数据的视图的时间实例内的纹理数据；接收深度视图分量，所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及囊封在所述视图的所述时间实例内的视图分量中的纹理视图分量和所述深度视图分量，使得所述纹理视图分量和所述深度视图分量囊封于共同位流中。

在另一实例中，本发明是针对一种对视频数据进行译码的方法，所述方法包括：接收共同位流，所述共同位流囊封了在视频数据的所述视图的时间实例内的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括在视图的所述时间实例内的纹理数据，且所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及将在视频数据的所述视图的所述时间实例内的所述纹理视图分量与所述深度视图分量分离。

在又一实例中，本发明是针对一种用于处理视频数据的装置，所述装置包括视频译码器，所述视频译码器经配置以：接收共同位流，所述共同位流囊封了在视频数据的所述视图的时间实例内的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括在视图的所述时间实例内的纹理数据，且所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及将在视频数据的所述视图的所述时间实例内的所述纹理视图分量与所述深度视图分量分离。

在另一实例中，本发明是针对用于处理视频数据的装置，所述装置包括：用于接收共同位流的装置，所述共同位流囊封了在视频数据的所述视图的时间实例内的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括在视图的所述时间实例内的纹理数据，且所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及用于将在视频数据的所述视图的所述时间实例内的所述纹理视图分量与所述深度视图分量分离的装置。

在又一实例中，本发明是针对包括计算机可读存储媒体的计算机程序产品，所述计算机可读存储媒体上存储有指令，所述指令在执行时致使视频解码装置的处理器：接收共同位流，所述共同位流囊封了在视频数据的所述视图的时间实例内的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括在视图的所述时间实例内的纹理数据，且所述深度视图分量包括对应于在视频数据的所述视图的所述时间实例内的所述纹理数据的深度数据；以及将在视频数据的所述视图的所述时间实例内的所述纹理视图分量与所述深度视图分量分离。

在随附图式以及下文描述中阐述了本发明的一个或一个以上方面的细节。从描述和图式，以及从权利要求书将明白本发明中所描述的技术的其它特征、目的和优势。

附图说明

图1是说明可用以实施本发明的技术中的一者或一者以上的视频编码和解码系统的一个实例的框图。

图2是进一步详细说明图1的视频编码器的实例的框图。

图3A是说明可用于本发明的技术中的一者或一者以上的实施中的位流结构的实例的概念图。

图3B是说明可包含于图3A的位流结构中的视图的实例的概念图。

图4A是说明实例MVC预测模式的概念图。

图4B是说明用于两个视图的多视图视频译码(MVC)兼容多视图视频加深度(MVD)译码的概念图。

图4C是说明用于三个或三个以上视图的MVC兼容MVD译码的概念图。

图4D是说明用于多个视图的MVC兼容MVD译码的概念图。

图5是说明与本发明一致的视频编码器的实例操作的流程图。

图6是进一步详细说明图1的视频解码器的实例的框图。

图7是说明与本发明一致的视频解码器的实例操作的流程图。

具体实施方式

本发明描述用于支持包含纹理和深度信息的视频数据的译码的技术。纹理信息指代用于呈现二维(2D)图片的信息，例如亮度(辉度)和色度(颜色)信息。深度信息可包含可用于形成3D视频的信息，例如深度图(例如，在逐像素基础上的深度值)或视差图(例如，在逐像素基础上的水平视差)。

所描述的技术涉及三维(3D)视频内容的译码。具体来说，这些技术是针对提供MVC位流的一个或一个以上视图的深度分量或纹理分量。举例来说，3D视频内容可表示为多视图视频加深度(MVD)数据。也就是说，可应用这些技术来对类似于多视图视频译码(MVC)位流的位流进行编码，其中所述MVC位流中的任一或所有视图可进一步包含深度信息，例如深度视图分量。

基于深度估计和虚拟视图合成的视频转换可用以产生3D图像，例如3D视频应用。具体来说，场景的虚拟视图可用以产生所述场景的3D视图。基于场景的现有视图产生所述场景的虚拟视图按照惯例是通过在合成虚拟视图之前估计对象深度值来实现。深度估计是从立体像对或单像内容估计对象与相机平面之间的绝对或相对距离的过程。深度信息可包含可用于形成三维视频的信息，例如深度图(例如，在逐像素基础上的深度值)或视差图(例如，在逐像素基础上的水平视差)。

通常由灰度级图像深度图表示的所估计深度信息可用以使用基于深度图像的呈现(DIBR)技术产生任意角度的虚拟视图。与传统三维电视(3DTV)系统(其中多视图序列面临着有效率视图间压缩的挑战)相比较，基于深度图的系统可通过发射可有效率地进行编码的仅一个或少数视图以及深度图来减少带宽的使用。用于基于深度图的转换中的深度图可以是在其用于视频合成中之前可由终端用户控制(例如，通过按比例调整)。可产生具有不同量的感知深度的定制虚拟视图。而且，深度的估计可使用单像视频来执行，其中仅单视图2D内容为可用的。

MVC为ITU-T H.264编码标准的扩展，其支持场景的两个或两个以上视图的编码。还提出了HEVC的MVC扩展。当捕获原始视频数据时，两个或两个以上相机可在拍摄场景期间为活动的，且相机中的每一者可从不同视角产生相应视图的数据。根据MVC，视图中的每一者可经编码，且视图可使用其它经译码视图的图片作为参考图片(视图间预测)以及使用同一视图的其它图片作为参考图片(时间预测)来编码，如图4A中所说明。

由两个或两个以上相机捕获的不同视图可用以支持3D视频数据。可使用不同偏振程度的光同时显示两个视图，且检视者可佩戴无源、偏振眼镜，使得检视者的眼睛中的每一者接收视图中的相应者。或者，检视者可佩戴独立地遮闭每一眼睛的有源眼镜，且显示器可与眼镜同步地在每一眼睛的图像之间快速交替。一些显示器能够显示多达八个或甚至更多的视图，使得用户可从各个角度观察显示器，以从各个视角检视所述场景。

所述技术涉及针对同一视图对共同位流中的纹理和深度信息两者进行译码。视频解码器可从经编码视图的纹理和深度信息产生一个或一个以上额外视图。因此，例如，根据本发明的技术的编码器可(例如)对包含每一视图的纹理和深度信息的四个视图进行编码，而非对整组八个视图进行编码。在本发明中，术语“译码”可指编码和/或解码中的任一者或两者。

更具体来说，本发明的技术是针对支持同一位流内的同一视图的纹理和深度信息的译码。用于对纹理和深度信息进行译码的现有技术是针对在单独位流中提供纹理和深度信息。

在本发明的一个方面中，纹理和深度信息可被译码为同一位流的单独分量，此可允许两个分量容易地彼此分离。结果，当位流转发到显示装置时，可根据显示装置的能力来调整位流。举例来说，包含两个分量的位流可转发到兼容3D功能的(3D-ready)装置，而位流可经滤波且转发到兼容2D功能的装置而不包含深度信息分量。

更确切地说，本发明提出提供用于视频数据的视图的数据，使得视图的视图分量包含纹理和深度信息两者。视图分量为包含特定视图的在共同时间实例内的所有数据的数据单元。视频译码层(VCL)处的网络抽象层(NAL)单元(也被称作VCL NAL单元)可包含经译码视频数据(例如，纹理或深度数据)的片段或帧。本发明的技术提出将在共同时间实例内的纹理和深度VCL NAL单元视为属于共同视图分量。

根据本发明的技术，通过在同一视图分量中提供在共同时间实例内的纹理和深度VCL NAL单元，用于纹理信息的某译码数据可重新用于对深度信息进行译码。举例来说，可使用位移向量从对应纹理信息预测出VCL NAL单元的深度图。与常规MVC—样，视图间预测也可用于相对于其它视图的纹理信息对视图的纹理信息进行译码。

另外，本发明提供用于用信号发出用于所提供的视图的相机参数且使用所述相机参数进行视图合成预测的技术。使用相机参数，视频解码器可使用(例如)基于深度图像的呈现(DIBR)从参考视图和对应深度图合成虚拟视图。经合成虚拟视图可用作用于对另一视图进行编码的预测。在一个实例中，参考视图可为深度图自身。以此方式，相机参数和一个参考深度图可足以合成虚拟的当前深度图。

可应用本文中所描述的技术以对纹理和深度分量进行编码且将其一起囊封到单个位流中。与在单个时刻时的单个视图相关联的纹理和深度分量可一起被编码且与视频数据单元(例如，视频帧或片段)相关联。根据本发明的技术，视频编码器可重新使用与视图的纹理分量相关联的预测数据来对视图的深度分量进行译码。以此方式，编码器可使用两个分量或两个视图之间的预测相依性或对于合成视图的预测相依性来对纹理和深度分量进行编码，且用信号发出将可用于对视频数据进行译码的预测相依性。另外，本发明可提供用于相对于其它视图的纹理信息对视图的纹理信息进行译码的视图间预测的技术。下文可更详细描述本发明的这些及其它技术。

图1是说明可用以实施本发明的技术中的一者或一者以上的视频编码和解码系统10的一个实例的框图。如图1所示，系统10包含源装置12，其经由通信信道15将经编码视频发射到目的地装置16。源装置12和目的地装置16可包括广泛多种装置中的任一者。在一些情况下，源装置12与目的地装置16中的任一者或两者可包括无线通信装置，例如无线手持机、所谓的蜂窝式或卫星无线电电话，或可在通信信道15上(在此情况下，通信信道15为无线的)传送视频信息的任何无线装置。然而，涉及对包含纹理和深度信息两者的视频数据进行译码的本发明的技术不一定限于无线应用或设置。所述技术还可用于广泛范围的其它设置和装置，包含经由物理导线、光纤或其它物理或无线媒体通信的装置。举例来说，经编码视频可存储于存储装置上以由目的地装置16随后进行检索、解码和显示。此外，编码或解码技术还可应用于未必与任何其它装置通信的独立装置中。

在图1的实例中，源装置12可包含视频源20、深度处理单元21、视频编码器22、调制器/解调器(调制解调器)23和发射器24。目的地装置16可包含接收器26、调制解调器27、视频解码器28和显示装置30。根据本发明，源装置12的视频编码器22可经配置以应用本发明的技术中的一者或一者以上，作为视频编码过程的部分。类似地，目的地装置16的视频解码器28可经配置以应用本发明的技术中的一者或一者以上，作为视频解码过程的部分。

视频编码器22还可应用变换、量化和熵译码过程以进一步减少与残余块的传送相关联的位速率。变换技术可包括离散余弦变换(DCT)或概念上类似的过程。或者，可使用小波变换、整数变换或其它类型的变换。在DCT过程中，作为一实例，可将一组像素值转换成变换系数，所述变换系数可表示频域中的像素值的能量。视频编码器22还可量化所述变换系数，这可大体涉及减少与对应变换系数相关联的位的数目的过程。熵译码可包含共同地压缩数据以供输出到位流的一个或一个以上过程，其中经压缩数据可包含例如译码模式序列、运动信息、经译码块模式，和经量化变换系数。熵译码的实例包含但不限于上下文自适应可变长度译码(CAVLC)和上下文自适应二进制算术译码(CABAC)。

经译码视频块可由可用以建立或识别预测块的预测信息和可应用到预测块以重新建立原始块的残余数据块来表示。预测信息可包括用以识别预测数据块的一个或一个以上运动向量。使用运动向量，视频解码器28可重建构用以对残余块进行译码的预测块。因此，给定一组残余块和一组运动向量(和可能的一些额外语法)，视频解码器28可重建构原先被编码的视频帧。基于运动估计和运动补偿的帧间译码可实现相对高的量的压缩而没有过多数据损失，因为连续视频帧或其它类型的经译码单元通常类似。经编码视频序列可包括残余数据块、运动向量(当经帧间预测编码时)、用于帧内预测的帧内预测模式的指示、关于深度和纹理分量的信息以及可能的其它数据，例如语法元素类型。

视频编码器22还可利用帧内预测技术来相对于共同帧或片段的相邻视频块来对视频块进行编码。以此方式，视频编码器22可在空间上预测所述块。视频编码器22可配置有多种帧内预测模式，其大体对应于各种空间预测方向。与运动估计一样，视频编码器22可经配置以基于块的亮度分量来选择帧内预测模式，接着重新使用所述帧内预测模式来对块的色度分量进行编码。此外，根据本发明的技术，视频编码器22可重新使用在对视图的包括亮度和色度分量的纹理分量进行编码的过程中所使用的预测关系，来对视图的深度分量进行编码。另外，根据本发明的技术，视频编码器22可相对于其它视图的纹理分量对视图的纹理分量进行编码，且可相对于其它视图的深度分量对视图的深度分量进行编码。在一些实例中，视频编码器22可相对于合成视图的纹理数据对深度分量进行编码。

本发明的技术可简化MVD中的纹理和深度分量的译码过程，且可通过将与一个视图相关联的纹理和深度分量囊封于同一位流中来提高位流效率。这些技术还可包含提供用于视图内预测、视图间预测和视图合成预测的信息。在视图内预测中，可用信号发出关于从纹理到深度的运动预测的信息。在视图间预测中，可用信号发出关于从一个视图到另一个视图的预测的信息。视图合成预测可允许从包含纹理和深度分量的参考视图合成虚拟视图。

图1的所说明系统10仅为一个实例。可由支持预测性编码的任何编码装置或由支持预测性解码的任何解码装置来执行本发明的各种技术。源装置12和目的地装置16仅为此些译码装置的实例，其中源装置12产生用于发射到目的地装置16的经译码视频数据。在一些情况下，装置12与16可以按照大体上对称的方式操作，使得装置12和16中的每一者包含视频编码和解码组件。因此，系统10可支持视频装置12与16之间的单向或双向视频传输，例如用于视频流式传输、视频播放、视频广播或视频电话。

源装置12的视频源20可包含例如摄像机等视频捕获装置、含有先前捕获的视频的视频存档，或来自视频内容提供者的视频馈送。作为另一替代方案，视频源20可产生基于计算机图形的数据作为源视频，或实时视频、存档视频和/或计算机产生的视频的组合。在一些情况下，如果视频源20为摄像机，那么源装置12和目的地装置16可形成所谓的相机电话或视频电话，或经配置以操纵视频数据的其它移动装置，例如平板计算装置。在每一种情况下，都可由视频编码器22来对经捕获的、经预先捕获的或计算机产生的视频进行编码。视频源20捕获视图2，且将其提供到深度处理单元21。

视频源20将视图2提供到深度处理单元21，以便计算视图2中的对象的深度图像。深度处理单元21可经配置以自动计算视图2的图像中的对象的深度值。举例来说，深度处理单元21可基于纹理信息计算对象的深度值，所述纹理信息可包含亮度和色度信息。在一些实例中，深度处理单元21可经配置以从用户接收深度信息。在一些实例中，视频源20可捕获在不同视角下的场景的两个或两个以上视图，且接着基于所述两个或两个以上视图中的对象之间的视差来计算场景中的对象的深度信息。在各种实例中，视频源20可包括标准二维相机、提供场景的立体视图的两个或两个以上相机系统、捕获场景的多个视图的相机阵列或捕获一个视图加深度信息的相机。

深度处理单元21可将纹理分量4和深度信息6传递到视频编码器22。深度处理单元21还可将视图2传递到视频编码器22。深度信息6可包括用于视图2的深度图图像。深度图可包括与待显示的区(例如，块、片段或帧)相关联的像素的每一区域的深度值的图。像素区域可为单个像素或一个或一个以上像素的群组。在深度图的一些实例中每一像素具有一个深度分量。在其它实例中，每一像素可存在多个深度分量。

在一些实例中，对深度图进行估计。当存在一个以上视图时，在一个以上视图可用时，可使用立体匹配来估计深度图。然而，在2D到3D的转换中，可能更难以估计深度。不过，通过各种方法估计出的深度图可用于依据基于深度图像的呈现(DIBR)的3D呈现。

尽管视频源20可提供场景的多个视图，但深度处理单元21可基于多个视图来计算深度信息，且源装置12通常可针对场景的每一视图发射一个视图加深度信息。在本发明的一个实例中，可发射与不同视图相关联的参数(例如，相机参数)，且随后由解码器使用所述参数来使用参考视图和对应深度图合成虚拟视图。举例来说，相机参数可包含内在参数(例如，在水平方向上的焦距和主点偏移)和外在参数(例如，每一视图的真实世界水平相机位置)。通常，多视图序列中的每一视图将共享相同内在参数。因此，这些参数可针对序列用信号发出一次，使得用信号发出的内在参数适用于序列中的所有视图。以此方式，对于每一序列，某些相机参数可用信号发出且传送一次，因此减少经编码和发射的信息量。在一个实例中，相机参数可在序列级用信号发出。

在一个实例中，每一深度图图像可使用8位像素来表示。对于深度图图像的每一8位像素，到经量化8位深度值的真实世界z值映射可用于(例如)DIBR，其可为解码循环的部分。在序列级或图片级，可用信号发出或假设从8位深度值映射到真实世界z值的函数。在此实例中，可用信号发出默认的深度到z值转换函数，例如，指定所述函数为从深度值到z值的反比例函数的指示。此外，当确定了函数时，也可在(例如)序列参数集中用信号发出深度范围。在利用深度值与z值之间的更复杂转换的实例中，可用信号发出含有深度值到真实世界z值(256个浮点数)的表。

当视图2为数字静态图片时，视频编码器22可经配置以将视图2编码为例如联合影像专家群组(JPEG)图像。当视图2为视频数据的帧时，视频编码器22可经配置以根据例如以下的视频译码标准来对第一视图50进行编码：动画专家群组(MPEG)、国际标准化组织(ISO)/国际电工委员会(IEC)MPEG-1 Visual、ISO/IEC MPEG-2 Visual、ISO/IECMPEG-4 Visual、国际电讯联盟(ITU)H.261、ITU-T H.262、ITU-T H.263、ITU-TH.264/MPEG-4、H.264高级视频译码(AVC)、即将出现的高效率视频译码(HEVC)标准(也称作H.265)，或其它视频编码标准。视频编码器22可针对每一视图对纹理数据和深度数据(例如，纹理片段和深度片段)进行编码。视频编码器22可形成用于纹理片段和深度片段的网络抽象层(NAL)单元，且将在特定时间实例处的特定视图的NAL单元囊封为视图分量。以此方式，经译码位流8可包含经编码图像数据或纹理信息4以及深度信息6。视频编码器22将经译码位流8传递到发射器24。经译码位流8可包含经译码纹理信息4、深度信息6，且可连同例如预测相依性和相机参数等用信号发出的信息一起发射。

经译码位流8可包含纹理信息4和深度信息6。纹理分量4可包含视频信息的亮度(luma)和色度(chroma)分量。亮度分量通常描述明度，而色度分量通常描述颜色的色调。深度处理单元21可从视频2的深度图提取深度信息6。视频编码器22可对纹理分量4和深度信息6进行编码，且将其囊封到单个位流(具体来说，经译码位流8)中。同样，视频编码器22可对位流进行编码，使得纹理分量的运动预测相依性用以对深度分量进行编码。以此方式，深度分量可从纹理分量预测出。另外，根据本发明的技术，视频编码器22可用信号发出与特定视图相关联的相机参数，例如在水平方向上的焦距和主点偏移以及每一视图的真实世界水平相机位置。

以此方式，目的地装置16可使用特定视图的纹理和深度信息合成视图，(例如)以实现特定视点处的合成视图，以实现特定3D呈现效果(例如，产生相对较多或较少的深度)。举例来说，为了产生相对较多的感知深度，目的地装置16可合成具有相对远离经译码视图的相机位置的相机位置的视图，而为了产生相对较少的感知深度，目的地装置16可合成具有相对靠近于经译码视图的相机位置的相机位置的视图。以此方式，目的地装置16可经配置以使用相机参数(例如，位流的经译码视图的真实世界相机位置)以合成视图，所述合成视图用以在与位流的视图一起显示时产生三维效果。

经译码位流8可由调制解调器23根据例如码分多址(CDMA)或另一通信标准等通信标准来调制，且经由发射器24和通信信道15发射到目的地装置16。调制解调器23可包含各种混频器、滤波器、放大器或经设计以用于信号调制的其它组件。发射器24可包含经设计以用于发射数据的电路，包含放大器、滤波器和一个或一个以上天线。在一些实例中，并非经由通信信道发射，而是源装置12将经编码视频数据(例如，经译码位流8)存储到存储媒体上，所述存储媒体例如数字视频光盘(DVD)、蓝光光盘、闪存驱动器或其类似者。

目的地装置16的接收器26经由通信信道15接收信息，且调制解调器27解调所述信息。与发射器24相似，接收器26可包含经设计以用于接收数据的电路，包含放大器、滤波器和一个或一个以上天线。在一些情况下，发射器24和/或接收器26可并入于包含接收和发射电路两者的单一收发器组件内。调制解调器27可包含各种混频器、滤波器、放大器或经设计以用于信号解调的其它组件。在一些情况下，调制解调器23和27可包含用于执行调制和解调两者的组件。

术语“译码器”在本文中用以指代执行视频编码或视频解码的专用计算机装置或设备。术语“译码器”通常是指任何视频编码器、视频解码器，或组合式编码器/解码器(编解码器(codec))。术语“译码”指代编码或解码。术语“经译码视频数据”可指视频数据的任何可独立解码的单元，例如块、整个帧、帧的片段、视频数据的块，或根据所使用的译码技术而定义的另一可独立解码单元。

显示装置30向用户显示经解码的视频数据，且可包括多种一个或一个以上显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。在一些实例中，显示装置30对应于能够进行三维播放的装置。举例来说，显示装置30可包括立体显示器，其结合检视者佩戴的眼镜来使用。眼镜可包括有源眼镜，在所述情况下，显示装置30与有源眼镜的镜片的交替快门开闭(shuttering)同步地在不同视图的图像之间快速交替。或者，眼镜可包括无源眼镜，在所述情况下，显示装置30同时显示来自不同视图的图像，且无源眼镜可包含偏振镜片，所述偏振镜片通常在正交方向上发生偏振以在不同视图之间进行过滤。

在图1的实例中，通信信道15可包括任何无线或有线通信媒体，例如，射频(RF)频谱或一个或一个以上物理传输线或者无线和有线媒体的任何组合。通信信道15可形成基于包的网络的部分，所述基于包的网络例如局域网、广域网、或例如因特网等全球网络。通信信道15大体上表示用于将视频数据从源装置12发射到目的地装置16的任何合适的通信媒体或不同通信媒体的集合。通信信道15可包含路由器、交换机、基站，或可用于促进从源装置12到目的地装置16的通信的任何其它设备。

视频编码器22和视频解码器28可根据视频压缩标准(例如，ITU-T H.264标准，或者被描述为MPEG-4第10部分，高级视频译码(AVC))而操作。可由视频编码器22和视频解码器28使用的基于ITU H.264/AVC标准的额外视频压缩标准包含可分级视频译码(SVC)标准，其为ITU H.264/AVC标准的可分级扩展。视频编码器22和视频解码器28的操作可以依据的另一标准包含多视图视频译码(MVC)标准，其为ITU H.264/AVC标准的多视图扩展。然而，本发明的技术不限于任何特定视频译码标准。

在一些方面中，视频编码器22和视频解码器28可各自与音频编码器和解码器集成，且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件和软件，以处理对共同数据流或单独数据流中的音频与视频两者的编码。如果适用，MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。

视频编码器22和视频解码器28各自可实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当本发明的技术中的任一者或全部以软件实施时，实施装置可进一步包含用于存储和/或执行软件的指令的硬件，例如用于存储指令的存储器和用于执行指令的一个或一个以上处理单元。视频编码器22和视频解码器28中的每一者可包含在一个或一个以上编码器或解码器中，其任一者可作为提供编码和解码能力的组合式编解码器的部分集成在相应移动装置、订户装置、广播装置、服务器或其类似者中。

视频序列通常包含也被称作视频图片的一系列视频帧。视频编码器22对个别视频帧内的视频块操作以便对视频数据进行编码。所述视频块可具有固定的或变化的大小，且可根据指定的译码标准而大小不同。每一视频帧包含一系列一个或一个以上片段。在ITU-T H.264标准中，例如，每一片段可包含一系列宏块，其可布置成子块。H.264标准支持用于二维(2D)视频编码的各种块大小(例如，对于亮度分量的16乘16、8乘8或4乘以4，以及对于色度分量的8×8)的帧内预测，以及各种块大小(例如，对于亮度分量的16乘16、16乘8、8乘16、8乘8、8乘4、4乘8和4乘4以及对于色度分量的对应的按比例调整的大小)的帧间预测。视频块可包括像素数据块或(例如)在例如离散余弦变换(DCT)等变换过程或概念上类似的变换过程之后的变换系数块。这些技术可扩展到包含两个分量(纹理和深度)的3D视频流。

较小的视频块可提供较佳的分辨率，且可用于包含高细节级别的视频帧的位置。一般来说，宏块和各种子块可被视为视频块。另外，视频数据片段可被视为一系列视频块，例如宏块和/或子块。每一片段可为视频帧的可独立解码单元。或者，帧自身可为可解码单元，或可将帧的其它部分定义为可解码单元。

ITU-T H.264标准的2D视频数据单元(例如，帧或片段)可通过除了所述视频帧或片段的纹理分量4之外还对来自深度图或视差图的深度信息6进行编码而扩展到3D。视差映射(也被称作虚拟位移映射或偏移映射)基于像素位置处的检视角度和高度图的函数使像素位置处的纹理分量发生位移。视频编码器22可将深度信息编码为单色视频。视图的此单色视频经编码深度信息可经编码且连同相同视图的纹理分量一起囊封于视频单元(例如，位流)中。根据本发明的技术，视频数据的视图的视图分量可包含经译码且一起囊封于同一位流中的纹理和深度分量两者。视图分量为包含特定视图(例如，特定相机或视频捕获元件)的在共同时间实例内的所有数据的数据单元。

为了对视频块(例如，组成经译码位流8的分量的视频块)进行编码，视频编码器22执行帧内预测或帧间预测以产生一个或一个以上预测块。视频编码器22可产生纹理分量数据单元(例如，帧或片段)和深度分量数据单元的预测块。另外，视频编码器22可执行视图内或视图间预测以产生视图的一个或一个以上预测块，其中视图内预测可利用同一视图内的分量之间的相依性，且视图间预测可利用不同视图的分量之间的相依性。

视频编码器22从待编码的原始视频块减去预测块以产生残余块。因此，残余块可表示经译码的块与预测块之间的逐像素差异。视频编码器22可对残余块执行变换以产生变换系数块。在基于帧内或帧间的预测性译码和变换技术之后，视频编码器22可将变换系数量化。量化一般指代将系数量化以可能地减少用于表示系数的数据量的过程。在量化之后，可根据熵译码方法来执行熵译码，例如，上下文自适应可变长度译码(CAVLC)或上下文自适应二进制算术译码(CABAC)。下文关于图2描述由视频编码器22执行的编码过程的额外细节。

目前正在努力开发当前被称作高效率视频译码(HEVC)的新的视频译码标准。即将到来的标准也被称作H.265。所述标准化努力是基于视频译码装置的模型，其被称作HEVC测试模型(HM)。HM假设了视频译码装置优于根据(例如)ITU-T H.264/AVC的装置的若干能力。举例来说，尽管H.264提供九个帧内预测编码模式，但HM提供多达34个帧内预测编码模式。HEVC可经扩展以支持如本文中所描述的两分量视频单元。

HM将视频数据块称为译码单元(CU)。位流内的语法数据可界定最大译码单元(LCU)，其在像素数目方面为最大的译码单元。一般来说，CU具有与H.264的宏块类似的用途，只是CU不具有大小区别。两分量(即，纹理和深度分量)经译码块可为根据HM标准的CU。因此，CU可分裂成子CU。一般来说，本发明中对CU的引用可指图片的最大译码单元(LCU)或LCU的子CU。LCU可分裂成子CU，且每一子CU可分裂成子CU。位流的语法数据可界定LCU可被分裂的最大次数(称为CU深度)。因此，位流还可界定最小译码单元(SCU)。本发明还使用术语“块”来指CU、预测单元(PU)或变换单元(TU)中的任一者。

LCU可与四叉树数据结构相关联。一般来说，四叉树数据结构中的每一CU包含一个节点，其中根节点对应于LCU。如果CU分裂成四个子CU，那么对应于CU的节点包含四个叶节点，所述叶节点中的每一者对应于子CU中的一者。四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，其指示对应于节点的CU是否分裂成子CU。用于CU的语法元素可以递归地定义，且可取决于CU是否分裂成子CU。

不分裂的CU可包含一个或一个以上预测单元(PU)。一般来说，PU表示所有或一部分的对应CU，且包含用于检索PU的参考样本的数据。举例来说，当PU是以帧内模式编码时，PU可包含描述所述PU的帧内预测模式的数据。作为另一实例，当PU是以帧间模式编码时，PU可包含界定所述PU的运动向量的数据。界定运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量指向的参考帧，和/或用于运动向量的参考列表(例如，列表0或列表1)。运动向量还可被视为对于纹理分量4和深度信息6具有不同分辨率。界定PU的CU的数据还可描述(例如)CU到一个或一个以上PU的分割。在CU是未经译码、经帧内预测模式编码还是经帧间预测模式编码之间，分割模式可不同。

具有一个或一个以上PU的CU还可包含一个或一个以上变换单元(TU)。在使用PU进行预测之后，视频编码器22可计算对应于PU的CU部分的残余值。可对残余值进行变换、扫描和量化。TU未必限于PU的大小。因此，TU可大于或小于相同CU的对应PU。在一些实例中，TU的最大大小可对应于对应CU的大小。

如上文所述，帧内预测包含从同一图片的先前经译码CU预测图片的当前CU的PU。更具体来说，视频编码器22可使用特定帧内预测模式来对图片的当前CU进行帧内预测。HM编码器可经配置以具有多达34个帧内预测模式。因此，为了支持方向帧内预测模式与方向变换之间的一对一映射，HM编码器和解码器将需要为每一所支持变换大小存储66个矩阵。此外，支持所有34个帧内预测模式的块大小可为相对大的块，例如32×32像素、64×64像素或甚至更大。

在对纹理和深度分量中的每一者进行编码之后，视频编码器22可确定一视图的纹理和深度分量之间和/或不同视图的纹理和深度分量之间的任何预测相依性。源装置12可通过将纹理和深度分量囊封到对应于视图的同一时间实例的相应VCL NAL单元中来实施本发明的技术，所述VCL NAL单元可被视为共同视图分量。本发明的技术可用于在位流(例如，经译码位流8)中对视图的纹理数据和深度图数据进行连续译码。为了将视图分量的纹理和深度图信息分离，视频编码器22可在位流中添加定界符，例如指示视图分量的纹理信息的结束以及深度信息的开始的NAL单元定界符。另外，视频编码器22可在位流内用信号发出视图内和视图间预测相依性以及与视图合成预测相关联的参数。

根据本发明的另一方面，视频编码器22可在视频数据中用信号发出相机参数，且可进一步描述深度值到真实世界z值的映射。视频数据还可描述深度图视图与纹理视图的预测关系。视频编码器22可在序列级(例如，在序列参数集(SPS)数据结构中)、图片级(例如，在图片参数集(PPS)数据结构或帧标头中)、片段级(例如，在片段标头中)或块级(例如，在块标头中)用信号发出这些额外参数和信息。

在目的地装置16中，视频解码器28接收经编码视频数据(例如，经译码位流8)。视频解码器28可使用指示NAL单元是否包含纹理或深度信息的旗标将纹理NAL单元(例如，纹理分量)与深度NAL单元(例如，深度分量)区分，如下文所论述。在对深度分量进行解码之后，目的地装置16可使用一个2D视图(即，纹理信息)且舍弃其它视图和深度信息；使用一个2D视图及其对应深度信息来合成虚拟视图以进行3D播放；使用两个或两个以上2D视图以进行3D播放；或使用多个视图及其深度信息以产生多个虚拟视图以进行多视图播放。确定如何播放内容可取决于若干因素，例如显示装置30的装置类型和显示装置30所支持的视频格式。

在将经译码位流8的纹理和深度分量分离之后，视频解码器28根据熵译码方法(例如CAVLC或CABAC)对所接收视频数据(例如，对应于分量中的每一者的经译码块)进行熵解码，以获得经量化系数。视频解码器28应用反量化(解量化)和反变换功能以重建构像素域中的残余块。视频解码器28还基于包含于经编码视频数据中的控制信息或语法信息(例如，译码模式、运动向量、界定滤波器系数的语法等)产生预测块。视频解码器28可计算预测块与经重建构残余块的和以产生经重建构视频块以供显示。下文关于图7描述由视频解码器28执行的实例解码过程的额外细节。

如本文中所描述，纹理信息可包括三个分量，例如，Y可表示亮度，Cb和Cr可表示三维YCbCr颜色空间的色度的两个不同值(例如，蓝和红色调)，且D可表示深度信息。在一些实例中，每一像素位置可实际上界定像素的纹理的一个像素值和像素位置的深度的一个像素值。举例来说，纹理值可包括表示亮度和色度分量的两个或两个以上值。另外，深度和纹理分量可具有不同分辨率。深度分量和纹理分量两者可分割成相应的像素块，所述像素块中的每一者可经个别地译码。

在一些实例中，视频编码器22和视频解码器28可在运动补偿期间使用一种或一种以上内插滤波技术。即，视频编码器22和/或视频解码器28可将内插滤波器应用于包括全整数像素位置的集合的滤波器支持。

如上文所述，目的地装置16的视频解码器28可接收经译码位流8，经译码位流8可包含纹理和深度分量以及额外信息，所述额外信息包含预测相依性和关于与纹理和深度分量相关联的视图的信息。另外，可针对视图用信号发出相机参数。视频解码器28可基于经译码位流8的分量以及包含视图信息和相机参数的一个或一个以上额外信息呈现视频数据以进行3D播放。根据本发明的技术，且如下文更详细论述，可利用一个或一个以上视图的所包含的信息，从一个或一个以上其它视图的纹理分量预测一个视图的纹理分量，且基于同一视图的纹理分量和/或一个或一个以上其它视图的深度分量预测一个视图的深度分量。

图2是进一步详细说明图1的视频编码器22的实例的框图。视频编码器22可对与对应于由视频源提供的不同视图的图像相关联的块单元进行编码，其中每一视图可包括纹理分量和深度分量。视频编码器22为专用视频计算机装置或设备(本文中被称作“译码器”)的一个实例。如图2中所示，视频编码器22对应于源装置12的视频编码器22。然而，在其它实例中，视频编码器22可对应于不同装置。在其它实例中，其它单元(例如，其它编码器/解码器(CODECS))还可执行与由视频编码器22执行的技术类似的技术。

视频编码器22可执行视频帧内的块的帧内译码和帧间译码，但为便于说明，在图2中未展示帧内译码分量。帧内译码依赖于空间预测以减少或移除给定视频帧内的视频中的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的相邻帧内的视频中的时间冗余。帧内模式(I模式)可指基于空间的压缩模式。例如预测(P模式)或双向(B模式)等帧间模式可指基于时间的压缩模式。然而，为了简洁以及便于说明，例如空间预测单元等帧内译码单元未在图2中说明。

如图2中所示，视频编码器22接收与待编码的视频帧的纹理和深度分量相关联的视频块，其中视频帧可对应于特定时间时的多个视图中的一者。举例来说，视频编码器22可接收纹理分量4和深度分量6。在图2的实例中，视频编码器22包含预测译码单元(MCU)32、存储器34、加法器48、变换单元38、量化单元40和熵译码单元46。为了视频块重建构，视频编码器22还包含反量化单元42、反变换单元44、加法器51和解块单元43。解块单元43可为解块滤波器，所述解块滤波器可对块边界进行滤波以从经重建构视频移除成块假影。如果包含于视频编码器22中，那么解块单元43通常将对加法器51的输出进行滤波。在一个实例中，如图2中所示，就HEVC而言，变换单元38可为功能块，而不是“TU”。解块单元43可确定一个或一个以上纹理分量的解块信息。解块单元43还可确定深度图分量的解块信息。在一些实例中，一个或一个以上纹理分量的解块信息可不同于深度图分量的解块信息。

在一些实例中，视频编码器22可包含视图合成单元，用于合成虚拟视图以用于在对其它视图的数据进行编码时参考。视图合成单元出于清楚起见未展示于图2的说明中，但当提供时，一般将检索来自存储器34的数据(例如，特定视图分量的纹理和深度信息)，使用所检索的数据合成包含纹理信息的视图分量，以及将合成的视图分量存储到存储器34以便在对其它视图的视频数据进行译码时用作参考。

预测单元32接收包括纹理分量4或深度信息6的视频块(在图2中标记为“视频块”)。预测单元32可包含运动估计(ME)单元35和运动补偿(MC)单元37。预测单元32可预测深度分量块中的深度信息和纹理分量块中的纹理信息。一个或一个以上内插滤波器39(本文中被称作“滤波器39”)可包含于预测单元32中，且可由ME单元35和MC单元37中的一者或两者调用以执行作为运动估计和/或运动补偿的部分的内插。内插滤波器39可实际上表示多个不同滤波器以促进众多不同类型的内插和内插型滤波。因此，预测单元32可包含多个内插滤波器或类内插滤波器。预测单元32可使用来自同一视图和/或与共同时间实例相关联的其它视图的深度和/或纹理信息来预测深度和/或纹理信息。预测单元32还可执行视图合成预测，其可提供允许相对于合成视图的数据对视图的块进行预测的预测信息。

在编码过程期间，视频编码器22接收待译码的视频块(在图2中标记为“视频块”)，且预测单元32执行帧间预测译码以产生预测块(在图2中标记为“预测块”)。待译码的视频块和预测块各自可对应于纹理分量4和深度分量6。具体来说，ME单元35可执行运动估计以识别存储器34中的预测块，且MC单元37可执行运动补偿以产生预测块。ME单元35和MC单元37可分别使用对应于来自同一视图或与共同时间实例相关联的其它视图的纹理和/或深度分量的块，来执行运动估计和运动补偿。ME单元35可实际上在执行视图间预测时产生“位移向量”，其概念上类似于运动向量，但一般来说预测归因于相应视图的相机的水平位置的差异造成的特定块的水平偏移，而不是随时间的流逝对象的运动。MC单元37因此也可被称作“运动/位移补偿单元”。以此方式，ME单元35和MC单元37可作出可用于纹理和深度分量的视图间和视图内预测中的确定。

运动估计通常被视为产生对视频块的运动进行估计的运动向量的过程。举例来说，运动向量可指示预测或参考帧(或其它经译码单元，例如片段)内的预测块相对于当前帧(或其它经译码单元)内待译码的块的位移。运动向量可具有全整数或分段整数像素精度。举例来说，运动向量的水平分量和垂直分量两者可具有相应全整数分量和分段整数分量。参考帧(或帧的部分)可在时间上位于当前视频块所属于的视频帧(或视频帧的部分)之前或之后。运动补偿通常被视为从存储器34提取或产生预测块的过程，所述过程可包含基于由运动估计确定的运动向量内插或以其它方式产生预测性数据。

ME单元35通过比较视频块与一个或一个以上参考帧(例如，先前和/或后续的帧或来自同一时间实例时的其它视图的帧)的参考块来计算待译码的视频块的至少一个运动向量。参考帧的数据(例如，纹理和/或深度分量)可存储于存储器34中。ME单元35可执行具有分数像素精度的运动估计，其有时被称作分数像素、分数像元、分段整数或子像素运动估计。在分数像素运动估计中，ME单元35可计算运动向量，其指示到除了整数像素位置之外的位置的位移。因此，运动向量可具有分数像素精度，例如，二分之一像素精度、四分之一像素精度、八分之一像素精度或其它分数像素精度。以此方式，分数像素运动估计允许预测单元32以高于整数像素(或全像素)位置的精度对运动进行估计，且因此预测单元32可产生更精确的预测块。

ME单元35可在运动估计过程期间调用滤波器39以用于任何必要的内插。在一些实例中，存储器34可存储分段整数像素的经内插值，所述值可由(例如)求和器51使用滤波器39来计算。举例来说，求和器51可将滤波器39应用于待存储于存储器34中的经重建构块。

为了执行分数像素运动补偿，MC单元37可执行内插(有时被称作内插滤波)以便产生在子像素分辨率下的数据(在本文中被称作子像素或分数像素值)。MC单元37可调用滤波器39以用于此内插。以此方式，预测单元32可计算参考块的分段整数像素位置的值，所述值接着可用以产生3D块单元的深度和纹理分量中的每一者的视频数据的预测块。在一个实例中，可针对3D块单元的纹理分量产生预测块，且可利用3D块单元的预测块或纹理分量产生对应于同一视图或与共同时间实例相关联的其它视图的同一3D块单元的深度分量。

一旦待译码的视频块的运动向量由ME单元35计算出，MC单元37即产生与所述运动向量相关联的预测视频块。MC单元37可基于由MC单元35确定的运动向量从存储器34提取预测块。在具有分数像素精度的运动向量的情况下，MC单元37可对来自存储器34的数据进行滤波以将此数据内插到子像素分辨率，例如在此过程内调用滤波器39。

在一些情况下，对应于用以将此数据内插到子像素分辨率的滤波器系数的全整数像素位置可指示为用于包含在经译码位流中的到熵译码单元46的一个或一个以上内插语法元素。类似地，用以产生子像素预测数据的内插滤波技术或模式还可指示为用于包含在经译码位流中的到熵译码单元46的一个或一个以上内插语法元素。

一旦预测单元32已产生预测块，视频编码器22即通过从正译码的原始视频块减去预测块而形成残余视频块(在图2中标记为“残余块”)。此减法可发生在原始视频块中的纹理分量与纹理预测块中的纹理分量之间，以及针对原始视频块中的深度信息或深度预测块中的深度信息的深度图。加法器48表示执行此减法运算的组件。

变换单元38将例如离散余弦变换(DCT)或概念上类似的变换等变换应用到残余块，从而产生包括残余变换块系数的视频块。应理解，变换单元38表示视频编码器22的组件，其将变换应用到视频数据块的残余系数，这与由HEVC界定的CU的TU相反。举例来说，变换单元38可执行概念上类似于DCT的其它变换，例如由H.264标准界定的变换。举例来说，此些变换可包含方向变换(例如，卡-洛定理变换)、小波变换、整数变换、子带变换或其它类型的变换。在任何情况下，变换单元38将变换应用于残余块，从而产生残余变换系数的块。变换单元38可将同一类型的变换应用于对应残余块中的纹理分量和深度分量两者。将存在用于每一纹理和深度分量的单独残余块。变换可将残余信息从像素域转换到频域。

量化单元40对残余变换系数进行量化以进一步减小位速率。量化过程可减少与系数中的一些或全部相关联的位深度。量化单元40可对深度图像译码残余进行量化。在量化之后，熵译码单元46对经量化变换系数进行熵译码。举例来说，熵译码单元46可执行CAVLC、CABAC或另一熵译码方法。

熵译码单元46还可对一个或一个以上运动向量进行译码，且支持从预测单元32或视频编码器22的另一组件(例如，量化单元40)获得的信息。一个或一个以上预测语法元素可包含译码模式、一个或一个以上运动向量的数据(例如，水平和垂直分量、参考列表识别符、列表索引和/或运动向量分辨率信令信息)、所使用的内插技术的指示、一组滤波器系数、深度图像的相对于亮度分量的分辨率的分辨率的指示、用于深度图像译码残余的量化矩阵、用于深度图像的解块信息或与预测块的产生相关联的其它信息。可在序列级或在图片级提供这些预测语法元素。根据本发明的技术，熵译码单元46还可对关于视图内和视图间预测相依性的信息和与视图合成预测相关联的参数进行译码。

一个或一个以上语法元素还可包含纹理分量与深度分量之间的量化参数(QP)差异。可在片段级用信号发出QP差异。还可在经译码块单元级用信号发出其它语法元素，包含深度信息的经译码块模式、深度信息的增量QP、运动向量差异或与预测块的产生相关联的其它信息。运动向量差异可用信号发出为目标运动向量与纹理分量的运动向量之间的增量值，或目标运动向量(即，正译码的块的运动向量)与来自所述块的相邻运动向量的预测子(例如，CU的PU)之间的增量值。

根据本发明的技术，在由熵译码单元46进行熵译码之后，视图的纹理分量和深度分量可囊封到对应于视图的同一时间实例的VCL NAL单元中。熵译码单元46可将NAL单元标头添加到纹理或深度信息的相应片段和帧，以将深度或纹理信息囊封于相应NAL单元内。视频编码器22还可在位流中添加NAL单元定界符，其指示视图的纹理数据的结束和深度信息的开始。或者，视频编码器22可设定包含于NAL单元标头中的深度旗标的值，以指示NAL单元是否包含纹理或深度信息。

另外，本发明的技术可在位流内提供关于视图内和视图间预测相依性和与视图合成预测相关联的参数的信号。即，视频编码器22可提供指示用于供纹理分量和深度分量参考的特定元素的信息。囊封视图的纹理和深度分量的经译码位流接着可发射到另一装置或经存档(例如，在存储器34中)以供稍后发射或检索。

反量化单元42和反变换单元44分别应用反量化和反变换以在像素域中重建构残余块，例如以供稍后用作参考块。经重建构残余块(在图2中标记为“经重建构残余块”)可表示被提供到变换单元38的残余块的经重建构版本。经重建构残余块可归因于由量化和反量化操作引起的细节损失而不同于由求和器48产生的残余块。求和器51将经重建构的残余块加到由预测单元32产生的经运动补偿的预测块上，以产生经重建构视频块供存储在存储器34中。经重建构视频块可由预测单元32用作参考块，所述参考块可用以随后对后续视频帧或后续经译码单元中的块单元进行译码。

以此方式，视频编码器22表示经配置以进行如下操作的视频编码器的实例：接收在视频数据的视图的时间实例内的纹理数据；接收对应于在视频数据的视图的时间实例内的纹理数据的深度数据；以及囊封在视图的时间实例内的视图分量中的纹理数据和深度数据，使得纹理数据和深度数据囊封于共同位流内。视频编码器22还可用信号发出关于预测相依性的信息和用以捕获视频数据的视图的纹理数据的相机的相机参数，所述预测相依性例如帧内预测(例如，从同一视图的其它深度信息预测深度信息)、时间或视图间预测(例如，从不同视图分量的深度信息或从不同视图分量的纹理信息预测深度信息)。

图3A到3B是说明可用于本发明的技术中的一者或一者以上的实施中的位流结构的元素的实例的概念图。位流可用以在(例如)图1的源装置12与目的地装置16之间传送两分量MVD块单元和语法元素。位流可符合译码标准ITU H.264/AVC，且具体来说，遵照MVC位流结构。即，在一些实例中，位流可符合H.264/AVC的MVC扩展。在其它实例中，位流可符合HEVC的多视图扩展或另一标准的多视图扩展。在又其它实例中，可使用其它译码标准。

典型MVC位流次序(解码次序)布置为时间优先译码。每一存取单元经界定以含有在一个输出时间实例内的所有视图的经译码图片。存取单元的解码次序可或可不与输出或显示次序相同。通常，MVC预测可包含每一视图内的图片间预测和视图间预测两者。在MVC中，视图间预测可由视差运动补偿支持，所述视差运动补偿使用H.264/AVC运动补偿的语法，但允许不同视图中的图片用作参考图片。

两个视图的译码由MVC支持。MVC的一个优点为MVC编码器可将两个以上视图当作3D视频输入，且MVC解码器可将两个视图解码成多视图表示。因此，具有MVC解码器的呈现器可将3D视频内容视为具有多个视图。先前，MVC并未处理深度图输入，类似于具有SEI消息(立体信息或空间交错图片)的H.264/AVC。

在H.264/AVC标准中，网络抽象层(NAL)单元经界定以提供“网络友好”视频表示寻址应用，例如视频电话、存储或流式传输视频。NAL单元可分类为视频译码层(VCL)NAL单元和非VCL NAL单元。VCL单元可含有核心压缩引擎，且包括块、宏块(MB)和片段级。其它NAL单元为非VCL NAL单元。

对于2D视频编码，每一NAL单元可含有一个字节的NAL单元标头和变化大小的有效负载。可使用五个位来指定NAL单元类型。三个位可用于nal_ref_idc，其指示NAL单元在由其它图片(NAL单元)参考方面的重要程度。举例来说，设定nal_ref_idc等于0意谓NAL单元未用于帧间预测。因为H.264/AVC可经扩展以包含3D视频编码(例如，可分级视频译码(SVC)标准)，所以NAL标头可类似于2D情形的NAL标头。举例来说，NAL单元标头中的一个或一个以上位可用以识别NAL单元为四分量NAL单元。

NAL单元标头还可用于MVC NAL单元。然而，在MVC中，可保留NAL单元标头结构，除了前缀NAL单元和MVC经译码片段NAL单元之外。MVC经译码片段NAL单元可包括四个字节的标头和NAL单元有效负载，所述NAL单元有效负载可包含块单元，例如图1的经译码块8。MVC NAL单元标头中的语法元素可包含priority_id、temporal_id、anchor_pic_flag、view_id、non_idr_flag和inter_view_flag。在其它实例中，其它语法元素可包含在MVC NAL单元标头中。

语法元素anchor_pic_flag可指示图片是锚图片还是非锚图片。锚图片和按输出次序(即，显示次序)在其之后的所有图片可正确地解码而无需按解码次序(即，位流次序)解码先前图片，且因此可用作随机存取点。锚图片和非锚图片可具有不同相依性，所述两个相依性均可在序列参数集中用信号发出。

MVC中所定义的位流结构的特征在于两个语法元素：view_id和temporal_id。语法元素view_id可指示每一视图的识别符。NAL单元标头中的此识别符使得能够在解码器处容易识别NAL单元，且快速存取经解码视图以供显示。语法元素temporal_id可指示时间可扩展性层级，或间接地指示帧速率。举例来说，具有较小的最大temporal_id值的包含NAL单元的操作点的帧速率可低于具有较大的最大temporal_id值的操作点。具有较高temporal_id值的经译码图片通常取决于视图内的具有较低temporal_id值的经译码图片，但可不取决于具有较高temporal_id的任何经译码图片。

NAL单元标头中的语法元素view_id和temporal_id可用于位流提取和适配两者。语法元素priority_id可主要用于简单的单路径位流适配过程。语法元素inter_view_flag可指示此NAL单元是否将用于对不同视图中的另一NAL单元进行视图间预测。

MVC还可使用序列参数集(SPS)且包含SPS MVC扩展。在H.264/AVC中，参数集用于发信号。参数集可含有序列参数集中的序列级标头信息和图片参数集(PPS)中的很少改变的图片级标头信息。就参数集来说，此很少改变的信息不需要针对每一序列或图片重复，因此译码效率得以提高。此外，参数集的使用使得能够带外发射标头信息，从而避免对用于错误恢复的冗余发射的需要。在带外发射的一些实例中，参数集NAL单元可在不同于其它NAL单元的信道上发射。在MVC中，视频相依性可在SPS MVC扩展中用信号发出。所有视图间预测可在由SPS MVC扩展指定的范围内进行。

在3D视频编码技术中，可需要以高效率对MVD内容的纹理和深度进行联合译码。然而，为了有效地实现对纹理和深度分量进行联合译码，可需要满足某些要求。举例来说，可为较佳的是，全局地管理深度和纹理的经译码图片和经解码图片。因此，可需要利用与用于视图内的纹理的NAL单元相异的用于深度图的NAL单元。还可能需要格式与某些标准(例如，H.264/AVC和MVC)兼容。此外，在同一视图的深度图和纹理之间以及在不同视图之间可存在相关性，可利用所述相关性来提高译码效率。

如本文中所描述，可将技术添加到现有标准(例如，MVC)，以便支持3D视频。多视图视频加深度(MVD)可添加到MVC以用于3D视频处理。3D视频编码技术可将更多灵活性和可扩展性提供给现有视频标准，(例如)用于平稳地改变视角或基于装置或用户偏好的具体说明向后或向前调整会聚或深度感知。译码标准还可经扩展以利用深度图以产生3D视频中的虚拟视图。

本发明的技术可提供3D视频译码的框架。举例来说，可任选地针对纹理和深度管理经译码图像和经解码图像。本发明的技术还可提供与MVC立体规范兼容的结构(例如，其中存在两个视图)。所述技术还可提供在位流中用信号发出预测相依性(例如，一个视图的纹理和深度分量之间或在不同视图的纹理分量之间)和有益于译码的参数(例如，针对每一视图的相机参数)。根据本发明的技术，可在位流中在纹理视图分量与深度视图分量之间添加NAL单元定界符。举例来说，定界符可指示视图分量的纹理数据(例如，纹理视图分量)的结束和深度信息(例如，深度视图分量)的开始、深度信息的结束或纹理数据的开始。此定界符可用于(例如)MPEG-2TS或其它系统中。在一个实例中，定界符可具有不同于NAL单元定界符的NAL单元类型，所述NAL单元定界符用以将视图分量与MVC中的不同视图分离。

图3A是说明可用于本发明的技术中的一者或一者以上的实施中的位流结构70的实例的概念图。在图3A中，根据本发明的技术，位流70在经扩展以包含MVD之后符合MVC标准。在其它实例中，位流70可符合其它视频编码标准。

位流70可包括关于块单元的发信号的额外信息。举例来说，位流70可包含不同分量之间的预测相依性(例如，深度信息6相对于一个或一个以上纹理分量4)的指示。在其它实例中，位流70可包含与不同视图相关联的纹理分量之间的预测相依性的指示。在其它实例中，位流70可用信号发出与位流中所指示的纹理和深度分量相关联的视图的相机参数。

如图3A中所示，位流70包括多个存取单元72-1到72-N。存取单元包括一组视图分量(下文出于方便起见称作视图)，例如视图74-1到74-M。一般来说，存取单元包含在共同时间实例内的所有数据，例如每一视图的一个视图分量的数据。在一些实例中，每一存取单元72-1到72-N包括相同数目的视图74-1到74-M(被称作视图74)。对每一存取单元进行解码可产生每一视图一个经解码图片。存取单元72-1到72-N可含有可用以呈现3D视频播放的经编码视频数据。根据本发明的技术，存取单元的视图分量可包含纹理和深度分量。

图3B是说明可包含于图3A的位流70的结构中的视图分量74-M的实例的概念图。存取单元中的每一视图分量(例如，存取单元72-1中的视图分量74-1)含有一组视频编解码器层(VCL)NAL单元76-1到76-3。视图分量74-M包括呈特定形式且按特定次序的NAL单元76-1到76-3。通常，视图分量按相同次序布置于每一存取单元中，使得每一存取单元中的第k个视图分量对应于同一视图。在其它实例中，视图分量74-M包括其它数目的NAL单元，所述NAL单元中的一些可包括纹理信息，而另一些可包括深度信息。根据本发明的技术，NAL单元76-1到76-3可包含信息(例如，旗标)，其指示NAL单元是否包含纹理或深度信息。另外，可利用NAL单元定界符来指示纹理信息NAL单元所停止之处和深度信息NAL单元所开始之处。

在一个实例中，在实施NAL单元过程中，可使用NAL单元标头扩展，其中旗标可添加到NAL单元标头中，以指示当前NAL单元是否含有视图的深度图或纹理的VCLNAL单元。或者，可添加新的NAL单元类型以指示NAL单元是否为对应于深度图片段的VCL NAL单元。可在深度图的VCL NAL单元中添加一个位，以指示此VCL NAL单元是否用以预测视图的纹理的任何经译码图片。inter_view_flag的语意可经扩展以提供所要指示，且如果未如此，那么深度图的VCL NAL单元中的inter_view_flag指示此NAL单元用以预测另一视图的深度图。在一个实例中，前缀NAL单元可含有NAL单元标头基础视图扩展nal_unit_header_mvc_extension()，其经定义如下：

其中depth_flag指示相关联的视图分量是否为深度图NAL单元。depth_flag的值可设定为1，以指示NAL单元为深度图的经译码VCL NAL单元，且设定为0，以指示NAL单元为视图的纹理的经译码VCL NAL单元。当depth_to_view_flag等于0时，其可指示如果当前视图分量为纹理视图分量，那么未使用所述当前视图分量来预测深度视图分量。如果当前视图分量为深度视图分量，那么未使用所述当前视图分量来预测纹理分量。当depth_to_view_flag等于1时，其可指示如果当前视图分量为纹理视图分量，那么可使用所述当前视图分量来预测同一存取单元的深度视图分量，且如果当前视图分量为深度视图分量，那么可使用所述当前视图分量来预测同一存取单元的纹理视图分量。当inter_view_flag等于1时，其指示当前视图分量是否可用于与当前视图分量一起均为纹理视图分量或均为深度视图分量的视图分量。

下表1说明实例NAL单元类型代码、语法元素分类和NAL单元类型类别。可针对含有深度视图分量的NAL单元引入nal_unit_type 21，即，slice_layer_depth_extension_rbsp()。

表1

在一个实例中，可利用序列参数集深度扩展，且其可具有以下实例一般设计：

其中depth_z_mapping_idc指定用于将真实世界z值转换为8位深度值d的深度图量化方法。当此值等于0时，其指定d与1/z成比例，即d/255＝(1/z-1/z_far)/(1/z_near-1/z_far)。当此值等于1时，其指定d与z成比例，即d/255＝(z-z_near)/(z_far-z_near)。当此值等于2时，其指定显式地用信号发出d到z的映射。value_z_i()为语法表，其用以在depth_z_mapping_idc等于2时用信号发出等于d到i的每一8位深度值的z[i]值。value_z_near()和value_z_far()为分别用信号发出z_near和z_far值的语法表。value_focal_length_x()和value_focal_length_y()为分别用信号发出focol_length_x和focal_length_y值的语法表，所述值作为可由所有相机共享的内在相机参数的部分。value_principal_point_x()和value_principal_point_y()为分别用信号发出principal_point_x和principal_point_y值的语法表，所述值作为可由所有相机共享的内在相机参数的部分。

相机的外在相机参数的旋转矩阵R可如下表示：

R = [\begin{matrix} R_{yz} & 0 & 0 \\ 0 & R_{xz} & 0 \\ 0 & 0 & R_{xy} \end{matrix}]

value_rotation_xy()、value_rotation_xz()和value_rotation_yz()为用信号发出旋转矩阵R的对角元素的值的语法表。horizontal_alligned_flag等于1指示所有相机水平对准。value_rotation_xy_i()为用信号发出对应于视图i的相机的旋转矩阵R的Rxy的值的语法表。value_translation()为用信号发出平移的值的语法表，所述值作为对应于视图i的相机的外在相机参数的部分。通常，value_syntax()可采取浮点值的形式用信号发出。

在一个实例中，相机可水平地对准，且不同相机可对应于不同深度范围。下文展示对应于此实例的特定设计，其中相机参数可通过使用多个视图之间的差分译码来更有效率地译码，例如：

在此语法表中，浮点值V可表示为小数值(其具有精度P，表示在零之前或之后的位数)和整数值I，使得：V＝I*10^P。当I为正值时，V也为正值，当I为负值时，V也为负值。下文为与SPS有关的视图的内在参数。除非进一步指定或更新，否则对于有关视图中的任一者，所述参数为相同的：

-focal_length_precision指定focal_length_x和focal_length_y的值的精度。

-focal_length_x_I指定focal_length_x的值的整数部分。

focal_length_x＝focal_length_x_I*10^{focal_length_precision}

-focal_length_y_I_diff_x加focal_length_x_I指定focal_length_y的值的整数部分。

focal_length_y＝(focal_length_x_I+focal_length_y_I_diff_x)*10^{focal_length_precision}

-principal_precision指定principal_point_x和principal_point_y的值的精度。

-principal_point_x_I指定principal_point_x的值的整数部分。

principal_point_x＝principal_point_x_I*10^{principal_precision}

-principal_point_y_I_diff_x加principal_point_x指定principal_point_y的值的整数部分。

principal_point_y＝(principal_point_x_I+principal_point_y_I_diff_x)*10^{principal_precision}

下文为与SPS有关的视图的外在参数。除非进一步指定或更新，否则对于有关视图中的任一者，所述参数为相同的。

-每一相机的旋转矩阵R表示如下：

R = [\begin{matrix} R_{yz} & 0 & 0 \\ 0 & R_{xz} & 0 \\ 0 & 0 & R_{xy} \end{matrix}]

-rotation_kl_half_pi指示旋转矩阵R的对角元素，其中kl等于xy、yz或xz，其中R_kl＝(-1)^{rotation_kl_half_pi}。此旗标等于0指定R_kl＝1；此旗标等于1指定R_kl＝-1。

-translation_precision指定所有有关视图的平移的值的精度。如此SPS中所指定的平移值的精度适用于参考此SPS的视图分量的所有平移值。

-anchor_view_id指定视图的view_id，所述视图的平移被用作计算其它视图的平移的锚。view_id等于anchor_view_id的视图的平移在zero_translation_present_flag等于0时等于0，否则用信号发出所述平移。

-z_near_precision指定z_near的值的精度。如此SPS中所指定的z_near的精度适用于参考此SPS的视图分量的所有z_near值。

-z_far_precision指定z_far的值的精度。如此SPS中所指定的z_far的精度适用于参考此SPS的视图分量的所有z_far值。

-z_near_integer指定z_near的值的整数部分。z_near＝z_near_integer*10^{z_near_precision}

-z_far_integer指定z_far的值的整数部分。z_far＝z_far_integer*10^{z_far_precision}

(当深度范围值对于不同视图为不同时，z_near和z_far指定锚视图的深度范围)

-zero_translation_present_flag等于1指示view_id等于anchor_view_id的视图的平移为0；此值等于0指示view_id等于anchor_view_id的视图的平移被用信号发出。

-translation_anchor_view_I指定锚视图的平移的整数部分。

-translation_anchor_view＝translation_anchor_view_I*10^{translation_precision}

-translation_anchor_view_I在zero_translation_present_flag等于1时被推断为0。

-translation_diff_anchor_view_I[i]加translation_anchor_view_I指定view_id等于i的视图的平移的整数部分，所述平移表示为translation_view[i]。

-translation_view[i]＝(translation_anchor_view_I+translation_diff_anchor_view＿I[i])*10^{translation＿precision}

(将translation_view[i]的整数部分表示为translation_view_I[i])

-z_near_diff_anchor_view_I加z_near_Integer指定view_id等于i的视图的最近深度值的整数部分，所述最近深度值表示为z_near[i]。

-z_near[i]＝(z_near_diff_anchor_view_I[i]+z_near_Integer)*10^{z_near_precision}

(将z_near[i]的整数部分表示为z_near_I[i])

-z_far_diff_anchor_view_I加z_far_Integer指定view_id等于i的视图的最远深度值的整数部分，所述最远深度值表示为z_far[i]。

-z_far[i]＝(z_far_diff_anchor_view_I[i]+z_far_Integer)*10^{z_far_precision}

(将z_far[i]的整数部分表示为z_far_I[i])

在此实例设计中，值表示为V＝I*10^P。在另一实例中，值可用其它基底来表示，例如V＝I*b^P，其中b可等于2、8或16。在一个实例中，focal_length_x_I、principal_point_x_I、translation_anchor_view_I、z_near_integer和z_far_integer可采取固定长度译码的形式用信号发出，例如具有默认长度32位或具有用信号发出的长度N位。

在一些实例中，视图的深度范围或外在相机参数(例如，平移)可在图片的基础上改变或可更新。经更新的深度范围或相机参数可适用于当前存取单元的视图分量和位流中的随后的视图分量，直到在当前PPS之后的含有PPS深度扩展的新PPS更新了有关视图的那些值为止。在另一实例中，含有PPS深度扩展的PPS可指派为不同NAL单元类型，在所述情况下，PPS深度扩展自身形成RBSP。

在另一实例中，可引入具有不同NAL单元类型的视图参数集以用信号发出深度范围和平移的改变。相机的深度范围和平移可在图片的基础上改变。经更新的深度范围或相机参数可适用于当前存取单元的视图分量和位流中的随后的视图分量，直到在当前VPS之后的新VPS更新了有关视图的那些值为止。语法元素可具有与PPS扩展的语意相同的语意。视图参数集可直接指含有深度扩展的当前有效SPS。

在一些实例中，深度范围和平移可能会在一段时间后显著地改变，因此如果VPS直接仅指SPS，那么深度范围和平移可变得效率较低。解决此潜在问题的一个方式可为在剖析第一深度视图分量的片段标头之后计算视图参数集，从而知道当视图参数集指具有深度扩展的PPS时VPS指的是哪一PPS。在另一实例中，PPS id可被置于VPS中以解决所述问题。

在一些实例中，某一视图参数集可被给予与SPS和PPS相同的优先级，因此可在带外用信号发出。在此实例中，可引入旗标以使得VPS更新SPS中的值，且随后的正常VPS仅指更新的值。在此实例中，VPS可用信号发出应用了VPS的帧。

相机的深度范围和平移可在图片的基础上改变。经更新的深度范围或相机参数可适用于当前存取单元的视图分量和位流中的随后的视图分量，直到在当前PPS之后的含有PPS深度扩展的新PPS更新了有关视图的那些值为止。

在一个实例中，图片参数集语法可为如下：

其中

-base_pic_parameter_set_id指定当前图片参数集所指的图片参数集的id。对应参数集可为正常图片参数集或图片参数集扩展。

-z_near_diff_integer_anchor加z_near_integer指定锚视图的新的最近深度的整数部分。

-z_far_diff_integer_anchor加z_far_integer指定锚视图的新的最远深度的整数部分。

-delta_translation_anchor_view_I加指定锚视图的新的平移的整数部分与锚视图的先前平移的整数部分之间的差异。如果zero_tranlation_present_flag等于1，那么此值被推断为0。

-delta_translation_diff_anchor_view_I[i]加translation_diff_anchor_view_I[i]，如SPS中所指定，指定了translation_anchor_view_I与view_id等于i的视图的新的平移的整数部分之间的差异。

-new_translation_view_I[i]＝(delta_translation_diff_anchor_view_I[i]+translation_diff_anchor_view_I[i]+new_translation_anchor_view_I)*10^{translation_precision}

或

new_translation_view_I[i]＝(delta_translation_diff_anchor_view_I[i]+translation_view_I[i]+new_translation_anchor_view_I-translation_anchor_view_I)*10^{translation_precision}

在一些实例中，锚视图平移总是为0，因此第二个公式可更简单。在其它实例中，可直接使用此值以用信号发出view_id等于i的视图的新平移的整数部分与在SPS中用信号发出的对应平移之间的差异。

-translation_diff_update_anchor_view_I[i]指定view_id等于i的视图的新平移的整数部分与同一视图的通过SPS中的发信号计算出的平移的整数部分之间的差异。

-new_translation_view_I[i]＝(translation_diff_update_anchor_view_I[i]+translation_view_I[i])*10^{translation_precision}

在此实例中，语法名称可从delta_translation_diff_anchor_view_I[i]变到translation_diff_update_anchor_view_I[i]。如果base_pic_parameter_set_id对应于正常图片参数集，那么当前PPS所指的先前值为SPS中所界定的值；否则(base_pic_parmeter_set_id对应于图片参数集深度扩展)，先前值为由参考(基础)图片参数集用信号发出的值。

在另一实例中，含有PPS深度扩展的PPS可指派为不同NAL单元类型，在所述情况下，PPS深度扩展自身形成RBSP：

其中

-pic_parameter_set_id指定当前图片参数集扩展的图片参数集id。

在一个实例中，正常图片参数集和图片参数集深度扩展共享同一编号系统。

在一些实例中，可引入视图参数集(例如，具有不同NAL单元类型)以用信号发出深度范围和平移的改变。

在一些实例中，相机的深度范围和平移可在图片的基础上改变。经更新的深度范围或相机参数可适用于当前存取单元的视图分量和位流中的随后的视图分量，直到在当前VPS之后的新VPS更新了有关视图的那些值为止。如果VPS存在于位流的存取单元中，那么VPS可置于存取单元的任何视图分量之前。语法元素可具有与PPS扩展的语意相同的语意。视图参数集可直接指含有深度扩展的当前有效的SPS。

在一些实例中，深度范围和平移可能会在一段时间后显著地改变，因此如果VPS直接仅指SPS，那么深度范围和平移可能不那么有效率。在此实例中，视图参数集可指具有深度扩展的PPS，且可在剖析第一深度视图分量的片段标头之后计算所述视图参数集，从而知道VPS指的是哪一PPS。在另一实例中，PPS id可被置于VPS中，如下文所示：

在一些实例中，某一视图参数集可被给予与SPS和PPS相同的优先级，且因此可在带外用信号发出。在此实例中，可引入旗标以使得VPS更新SPS中的值，且随后的正常VPS可指更新的值。在此实例中，用信号发出应用了VPS的第一帧。如果通过对frame_num等于start_frame_num的参考帧进行解码未能接收到此VPS，那么此VPS可被视为丢失。在另一实例中，还可用信号发出POC值。

图4A是说明实例MVC预测模式的概念图。图4A提供了用于视图间预测的实例译码方案。一般来说，MVC视频数据的经编码帧可在空间上、时间上和/或参考共同时间位置处的其它视图的帧来进行预测性编码。因此，用来预测其它视图的参考视图通常在用参考视图充当参考的视图之前解码，使得这些经解码视图可在对参考性视图进行解码时用于参考。解码次序未必对应于view_id的次序。因此，使用视图次序索引来描述视图的解码次序。视图次序索引为指示存取单元中的对应视图分量的解码次序的索引。

在图4A的实例中，说明八个视图(具有视图ID“S0”到“S7”)，且针对每一视图，说明十二个时间位置(“T0”到“T11”)。即，图4A中的每一行对应于一视图，而每一列指示一时间位置。尽管MVC具有可由H.264/AVC解码器解码的所谓的基础视图，且立体视图对也可由MVC支持，但MVC的优点为其可支持使用两个以上视图作为3D视频输入且对由多个视图表示的此3D视频进行解码的实例。具有MVC解码器的客户端的呈现器可预期具有多个视图的3D视频内容。

图4A中的帧在图4A中的每一行和每一列的相交点处使用包含字母的阴影块来指示，所述字母表示对应帧是经帧内译码(即，I帧)、还是在一个方向上经帧间译码(即，作为P帧)或在多个方向上经帧间译码(即，作为B帧)。一般来说，预测由箭头指示，其中被指向的帧使用向外指向的对象作为预测参考。举例来说，从在时间位置T0处的视图S0的I帧来预测在时间位置T0处的视图S2的P帧。

与单视图视频编码一样，可相对于在不同时间位置处的帧对多视图视频译码视频序列的帧进行预测性编码。举例来说，在时间位置T1处的视图S0的b帧具有从时间位置T0处的视图S0的I帧指向所述b帧的箭头，表明b帧是从I帧预测的。然而，另外，在多视图视频编码的情形中，可对帧进行视图间预测。即，视图分量可使用其它视图中的视图分量作为参考。举例来说，在MVC中，实现视图间预测，仿佛另一视图中的视图分量为帧间预测参考一样。潜在视图间参考在序列参数集(SPS)MVC扩展中用信号发出，且可通过参考图片列表构造过程来修改，这使得能够对帧间预测或视图间预测参考灵活地排序。MVC中的视图间预测可由视差补偿支持，所述视差补偿使用H.264/AVC运动补偿的语法，但允许不同视图中的图片被放置作为参考图片。

图4A提供视图间预测的各种实例。在图4A的实例中，视图S1的帧被说明为是从视图S1的不同时间位置处的帧预测的，以及从相同时间位置处的视图S0和S2的帧视图间预测的。举例来说，在时间位置T1处的视图S1的b帧是从时间位置T0和T2处的视图S1的B帧中的每一者预测的，以及是从时间位置T1处的视图S0和S2的b帧预测的。

在图4A的实例中，大写字母“B”和小写字母“b”意欲指示帧之间的不同层级关系，而不是不同编码方法。一般来说，大写字母“B”帧的预测层级相对高于小写字母“b”帧。图4A还使用不同阴影程度说明预测层级的变化，其中较大量的阴影(即，相对较暗)帧的预测层级高于具有较少阴影(即，相对较亮)的那些帧。举例来说，图4A中的所有I帧用全阴影来说明，而P帧具有稍亮点的阴影，且B帧(和小写字母b帧)具有相对于彼此的各种阴影程度，但总是比P帧和I帧的阴影亮。

图4B是说明用于两个视图的多视图视频译码(MVC)兼容多视图视频加深度(MVD)译码的概念图。MVC经译码位流中的每一“视图”可包含各自对应于在播放期间的特定时间实例的多个视图分量。每一视图分量可包含纹理数据和深度数据。图4B为使用立体视频译码的MVC的特定实例，因为仅存在两个视图。然而，由于所包含的深度信息可用以合成其它视图，因此根据图4B编译的位流的数据可用以产生两个以上输出视图。

在一个实例中，可利用一个或一个以上相机来捕获和提供视频数据，所述视频数据用以产生纹理和深度分量。由相机捕获的视频数据为纹理信息。在一个实例中，立体相机对可用以计算纹理分量的深度图。在另一实例中，深度传感器(例如，RADAR、LADAR等)可确定视图的深度图。深度分量的确定可由图1的源装置12的深度处理单元21执行。在一个实例中，深度处理单元可并入到视频解码器22中。

在图2B的实例中，在每一时刻，可获得两个视图，视图0和视图1。视图0包括纹理分量90A(例如，纹理0)和深度分量90B(例如，深度0)，且视图1包括纹理分量92A(例如，纹理1)和深度分量92B(例如，深度1)。举例来说，在图4B的实例中，分量90A、90B、92A和92B中的每一者可指在共同时间实例f0时的两个视图的对应分量。可在后续时间实例f1、f2等等时确定相同分量。虽然参考f0时的分量描述所述技术，但应理解相同技术可类似地应用于在其它时间实例f1、f2等等时的分量。

两个视图的纹理可按MVC兼容MVD译码来译码，所述MVC兼容MVD译码大体上可类似于根据本发明的技术扩展以适应在与纹理信息相同的位流中包含深度信息同时又维持其分离的MVC。

使用本发明的技术，两个视图中的每一者的深度图可使用对应于相同或其它视图的其它信息来预测。在一个实例中，与深度分量相关联的深度图可使用从纹理到深度图的运动预测来预测。举例来说，深度分量90B可使用纹理分量90A来预测，且深度分量92B可使用纹理分量92A来预测。

在另一实例中，一个视图的深度图可使用从一个视图到另一视图的视图间视差预测来预测(MVC中的视图间预测)。举例来说，深度分量92B可相对于深度分量90B来预测。以相同方式，纹理分量92A可相对于纹理分量90A来预测。

在又一实例中，视图的深度图可使用视图合成预测来预测，视图合成预测可利用与视图相关联的相机参数。如果视图中的每一者的相机参数可用，那么可使用例如DIBR技术等技术从参考视图和其对应深度图来合成虚拟当前视图。合成的虚拟视图可用以对另一视图进行预测和编码。在一个实例中，对于深度图视图合成预测，参考视图可为深度图自身。因此，相机参数和一个参考深度图可足以合成虚拟当前深度图。

如上文所论述，本发明的技术可包含用信号发出视图的相机参数。相机参数可包含(例如)内在参数和外在参数。内在参数可包含(例如)焦距和在水平方向上的主点偏移。外在参数可包含(例如)每一视图的真实世界水平相机位置。通常，多视图序列中的每一视图将共享相同内在参数。因此，这些参数可针对序列用信号发出一次，使得用信号发出的内在参数适用于序列中的所有视图。

在一个实例中，内在和外在相机参数可在三维视频数据(3DV)序列参数集(SPS)或SPS3DV扩展中用信号发出。SPS3DV扩展可进一步描述深度值到真实世界z值的映射，其可包含深度范围和默认的深度到z值转换函数，和/或含有每一相机设置的深度值到真实世界z值的表。SPS3DV扩展还可描述深度图视图与纹理视图的预测关系，所述预测关系可用于从纹理到深度图的运动预测中。

图4C是说明用于三个或三个以上视图的MVC兼容MVD译码的概念图。为了说明目的，图4C的实例展示3个视图，但应理解这些技术可用于3个或3个以上视图。在一个实例中，视图中的每一者可由相机从不同视角获得，且每一视图可包括纹理和深度信息。在其它实例中，一些视图可从不同视角获得，且其它视图可使用所获得视图的分量合成。在每一时刻，可获得三个视图，视图0、视图1和视图2。视图0包括纹理分量94A(例如，纹理0)和深度分量94B(例如，深度0)，视图1包括纹理分量96A(例如，纹理1)和深度分量96B(例如，深度1)，且视图2包括纹理分量98A(例如，纹理2)和深度分量98B(例如，深度2)。

如上文所论述，可使用其它视图的深度图或使用同一视图的纹理信息来预测与视图中的每一者相关联的深度图。另外，一个视图的纹理信息可使用一个或一个以上其它视图的纹理信息来预测。在图4B的实例中，对于第三视图，纹理还可从一个或一个以上其它视图的纹理和深度图来预测。在此实例中，第三视图可使用MVC中定义的视图间预测模式来预测。第三视图的块还可使用视图合成预测来预测，视图合成预测可依赖于第一视图和第二视图的纹理和深度图。

如上文所述，本发明的技术可利用SPS 3DV扩展来用信号发出可用于预测纹理和深度信息的某些参数。SPS 3DV扩展可描述相机参数、深度值到真实世界z值的映射和/或深度图视图和纹理视图的预测关系。

相机参数可包含内在参数和外在参数。内在参数可包含焦距和在水平方向上的主点偏移。多视图序列通常共享相同的焦距和在水平方向上的主点偏移。因此，在实施中，对于内在参数，两个浮点数可用于所有视图。外在参数可包含每一视图的相机水平位置。多视图序列通常由平行相机阵列捕获，其中所有相机可具有在世界坐标中的相同定向。相机可放置成一排以使得其位置仅在水平方向上不同。因此，外在参数的数目等于视图的数目。举例来说，对于N视图情况，N个浮点数可用于外在参数。

在一个实例中，深度值到真实世界z值的映射可使用深度范围和默认的深度到z值转换函数来实现。在其它实例中(其中其它转换函数可不同于默认函数)，针对每一相机设置，可包括含有深度值到真实世界z值的表。在一个实例中，深度值与真实世界z值之间的转换可用于视图合成中，以从一个或一个以上经译码视图来预测视图(例如，虚拟视图)。即，映射到真实世界z值的深度值可在真实世界深度范围中表达，所述真实世界深度范围可指示当产生虚拟视图时为了提供恰当3D效果所需要的水平偏移。

深度图视图和纹理视图的预测关系还可由SPS 3DV扩展描述。深度图视图的预测关系遵循视图合成的预测关系。因此，如果视图0的纹理基于视图间预测是取决于视图1的纹理，那么视图0的深度图可取决于视图1。如果视图0的纹理不取决于视图1的纹理，那么视图0的深度图可能不取决于视图1的深度图。对于上文预测关系(即，在视图0的纹理取决于视图1的纹理的条件下，视图0的深度图是否取决于视图1的深度图)中的每一者，可用信号发出旗标以指示预测关系是否存在。另外，可添加SEI消息以提供关于预测关系的改变的更多细节。以所述方式，SEI消息可与具有等于真的特定旗标的子序列相关联，而另一SEI消息与具有等于假的特定旗标的另一子序列相关联。

如上文所论述，对应于视图的同一时间实例的VCL NAL单元可被当作共同视图分量。本发明的技术可用于在位流中对视图的纹理数据和深度图数据进行连续译码。通常，深度分量(如果存在的话)总是按位流次序在其对应纹理分量之后。为了将视图分量的纹理与深度图信息分离，本发明的技术提出在位流中添加定界符，例如指示视图分量的纹理数据的结束以及深度信息的开始的NAL单元定界符。

另外或替代性地，纹理和深度VCL NAL单元可包含在NAL单元标头中的旗标，其指示NAL单元是否包含纹理或深度信息。此旗标可被称作深度旗标，其具有0值以指示NAL单元包含纹理信息，或具有1值以指示NAL单元包含深度信息。此NAL单元标头可对应于新的NAL单元类型。此外，可提供NAL单元标头信息以指示是否使用NAL单元来预测视图的任何经译码纹理图片。举例来说，可在深度图的VCL NAL单元中添加一个位，以指示此VCL NAL单元是否将用以预测视图的纹理的任何经译码图片。

图4D是说明用于多个视图的MVC兼容MVD译码的概念图。在此实例中，对应于不同视图的视频数据可(例如)各自通过相机从不同视角在不同时间实例处获得。在此实例中，视图200和220可对应于两个不同视图。与视图分量202A和222A相关联的视频数据可在同一时间实例处获得，且与视图分量202B和222B相关联的视频数据可在同一时间实例处获得，所述时间实例在获得与视图分量202A和222A相关联的视频数据的时间之后。

视图分量202A、222A、202B和222B中的每一者可包括纹理分量和深度分量。纹理分量可对应于由相机捕获的数据。深度分量可相对于来自同一视图或其它视图的分量来编码。在图4D的实例中，深度分量206A是相对于同一视图分量202A的纹理分量204A来预测的。在此实例中，深度分量206B是相对于同一视图(例如，视图200)的另一视图分量202A的深度分量206A来预测的，因此说明了使用视图内预测的实例。在另一实例中，可使用视图间预测，例如相对于另一视图200的深度分量206A来预测视图220的深度分量226A。

在一个实例中，可利用视图合成预测来使用所捕获视图200合成虚拟视图230。在此实例中，虚拟视图分量232B可包括纹理分量234B，所述纹理分量234B可基于来自其它视图的一个或一个以上分量(例如，视图分量202B的纹理分量204B和深度分量206B)的数据而形成(例如，内插)。还可利用合成的虚拟分量来预测其它分量。在此实例中，视图分量222B的深度分量226B是相对于纹理分量234B来预测的。

图5是说明与本发明一致的视频编码器的实例操作的流程图。将从图2的视频编码器22的视角来描述图5的技术，但其它装置也可执行类似技术。

视频编码器22可获得纹理视频数据的帧(102)。在其它实例中，视频编码器22可接收包含一个或一个以上视频数据块的片段或其它经译码单元。在一些实例中，来自两个或两个以上视图的帧可由视频编码器22获得，其中所述两个或两个以上视图可对应于两个或两个以上相机。视频编码器22可对视图的视图分量的纹理数据进行编码(104)，其中所述纹理分量包含在共同时间实例内的纹理视频数据的帧(或片段)以及深度视频数据的帧(或片段)两者。编码可包含帧的视图内或视图间编码中的任一者或全部。

视频编码器22可进一步接收对应于视图分量的深度图(106)。深度图可包含视频帧中的像素区的深度信息。深度图可具有与纹理分量的分辨率相同或不同的分辨率。在一个实例中，深度图可由深度处理单元来确定。

视频解码器22可确定深度图的块的参考样本(108)。在一个实例中，参考样本可为在同一视图分量中的分量、在同一视图中但时间上分离的视图分量中的分量，或不同视图中的分量。在一个实例中，确定参考样本可包含分析相同视图分量的纹理数据或同一视图中的先前经译码视图分量的深度。视频解码器22接着可相对于所确定参考样本对深度图进行编码(110)。视频解码器22可提供指示所确定参考样本的预测相依性信息(112)。所述信息可包含与深度图的预测相关联的预测相依性。预测相依性信息可描述用以预测正译码的当前帧或片段的数据(例如，视图识别符、POC值等)的参考帧或参考片段。

可通过在NAL单元的标头中包含深度旗标以指示NAL单元是对应于纹理分量还是深度分量，将来自每一视图分量的经编码分量一起囊封于一个位流中，同时保持分离。在一个实例中，囊封纹理和深度数据可包含使用纹理和深度分量中的每一者的NAL单元，其中可在NAL单元的标头中利用旗标以指示NAL单元是纹理还是深度NAL单元。另外，可在共同位流中在纹理数据与深度数据NAL单元之间提供定界符NAL单元，以指示纹理NAL单元所结束之处和深度NAL单元所开始之处。

在一个实例中，囊封纹理和深度数据可包括将纹理数据囊封为第一网络抽象层(NAL)单元且将深度数据囊封为第二NAL单元，其中第一NAL单元和第二NAL单元对应于同一类型的NAL单元的实例。在一个实例中，第一NAL单元可包括第一NAL单元标头，所述第一NAL单元标头包含指示第一NAL单元包含纹理信息还是深度信息的旗标，且第二NAL单元可包括第二NAL单元标头，所述第二NAL单元标头包含指示第二NAL单元包含纹理信息还是深度信息的旗标。在一个实例中，可设定第一NAL单元标头的旗标的值以指示第一NAL单元包含纹理信息，且可设定第二NAL单元标头的旗标的值以指示第二NAL单元包含深度信息。以此方式，在处理含有纹理和深度信息两者的位流期间，可利用NAL单元的标头中的旗标来确定纹理数据所结束之处和深度数据所开始之处。因此，即使两个分量囊封于共同位流中，也容易将两个分量分离。此情形在位流可发射到支持3D显示的装置和支持2D显示的装置的情况下也可为有用的，其中可在NAL单元中利用简单滤波来仅将纹理信息提供到2D显示装置。

使用本发明的技术，指示纹理和深度分量之间的预测关系的信息可通过位流用信号发出。预测关系可指示深度分量可使用视图内预测还是视图间预测来预测，以及虚拟视图分量是否可从一个或一个以上其它视图的纹理分量和/或深度分量形成。其它用信号发出的信息可包含与不同视图中的每一者相关联的相机参数。使用相机参数，不同视图的纹理和深度信息可相对于来自参考视图的纹理和深度信息来编码。以此方式，可对来自视图的子集的纹理和深度信息进行编码并在位流中进行发射。可利用与剩余视图相关联的相机参数来使用所发射的纹理和深度信息以产生纹理和深度信息。

以此方式，图5的方法表示一种方法的实例，所述方法包含：接收在视频数据的视图的时间实例内的纹理数据；接收对应于在视频数据的视图的时间实例内的纹理数据的深度数据；以及囊封在视图的时间实例内的视图分量中的纹理数据和深度数据，使得纹理数据和深度数据囊封于共同位流内。

图6是说明视频解码器28的实例的框图，视频解码器28可对以本文中所描述的方式编码的视频序列进行解码。视频解码器28为专用视频计算机装置或设备(本文中被称作“译码器”)的一个实例。如图6中所示，视频解码器28对应于目的地装置16的视频解码器28。然而，在其它实例中，视频解码器28可对应于不同装置。在其它实例中，其它单元(例如，其它编码器/解码器(CODECS))也可执行与视频解码器28类似的技术。

经编码视频位流可包含与视图分量相关联的经囊封纹理和深度分量，如上文所描述。位流可包含与纹理和深度分量中的每一者相关联的NAL单元。每一NAL单元的标头中的旗标可指示NAL单元为纹理分量NAL单元还是深度分量NAL单元。另外，NAL定界符可指示纹理NAL单元所结束之处和深度NAL单元所开始之处。位流还可包含指示分量中的每一者的预测相依性的信号，如上文所详细描述。视频解码器28可使用定界符NAL单元或NAL单元标头中的深度旗标来确定NAL单元包含纹理信息还是深度信息。

视频解码器28包含熵解码单元52，熵解码单元52对所接收位流的分量进行熵解码以产生经量化系数和预测语法元素。位流可包含每一像素位置的具有纹理分量和深度分量的两分量经译码块以便呈现3D视频。预测语法元素可包含译码模式、一个或一个以上运动向量、识别所使用的内插技术的信息、用于在内插滤波中使用的系数，以及同一视图的纹理和深度分量之间和相对于其它视图的预测关系的指示。位流还可与用信号发出的相机参数相关联，所述用信号发出的相机参数与位流的分量的对应视图相关联。

预测语法元素(例如，系数)被转发到预测单元55。如果使用预测来相对于固定滤波器的系数或相对于彼此对所述系数进行译码，那么预测单元55可对语法元素进行解码以界定实际系数。而且，如果将量化应用于预测语法中的任一者，那么反量化单元56还可移除此量化。反量化单元56可不同地处理经编码位流中的经译码块的每一像素位置的深度和纹理分量。举例来说，可用不同于纹理分量的方式来量化深度分量。因此，反量化单元56可分开地处理深度和纹理分量。举例来说，滤波器系数可根据本发明进行预测性译码和量化，且在此情况下，反量化单元56可由视频解码器28使用以对此些系数进行预测性解码和解量化。

预测单元55可基于预测语法元素和存储于存储器62中的一个或一个以上先前经解码的块产生预测数据，其方式与上文关于视频编码器22的预测单元32所详细描述的方式大致相同。具体来说，预测单元55可在运动补偿和/或帧内预测期间执行本发明的多视图视频加深度技术中的一者或一者以上，以产生相应深度分量和纹理分量的预测块。对于深度分量与纹理分量，预测块(以及经译码块)可具有不同分辨率。举例来说，深度分量可具有四分之一像素精度，而纹理分量具有全整数像素精度。因此，本发明的技术中的一者或一者以上可由视频解码器28用于产生预测块。预测单元55可包含运动补偿单元，所述运动补偿单元包括用于本发明的内插和类内插滤波技术的滤波器。为简洁以及便于说明，在图6中未展示运动补偿组件。

反量化单元56反量化(即，解量化)经量化系数。反量化过程可为针对H.264解码或针对任何其它解码标准定义的过程。反变换单元58对变换系数应用反变换(例如，反DCT或概念上类似的反变换过程)，以便产生像素域中的残余块。求和器64对残余块与由预测单元55产生的对应预测块求和，以形成由视频编码器22编码的原始块的经重建构版本。如果需要的话，还可应用解块滤波器以对经解码块进行滤波，以便移除成块假影。经解码视频块接着存储于存储器62中，存储器62提供用于随后的运动补偿的参考块且还产生经解码视频以驱动显示装置(例如，图1的装置28)。

经解码视频可用以呈现3D视频。3D视频可包含三维虚拟视图。深度信息可用以确定块中的每一像素的水平偏移(水平视差)。还可执行遮挡处理以产生虚拟视图。在一个实例中，视频解码器28可将经解码视频发射到包含2D显示装置在内的不同显示装置。在此实例中，视频解码器28可仅将经解码纹理分量发送到显示装置，而不将深度分量发送到显示装置。在一个实例中，视频解码器、显示器或中间单元可使用纹理和深度信息产生合成的视图。

图7是说明与本发明一致的视频解码器的实例操作的流程图。因此，图7的过程可被视为与图5的编码过程相反的解码过程。将从图6的视频解码器28的视角来描述图7，但其它装置也可执行类似技术。

视频解码器28可接收包含视图分量的经囊封纹理和深度分量的位流(140)。视频解码器28可将位流分离成可编码的纹理和深度分量(142)。视频解码器28还可获得在位流内用信号发出的信息，例如同一视图的纹理和深度数据之间和相对于其它视图的纹理和深度数据的预测相依性，以及与视图分量相关联的相机参数。

视频解码器28确定预测模式以便确定在编码器(例如视频编码器22)中从哪一预测块确定残余系数(144)。基于预测模式的确定，视频解码器28可计算经译码块的预测数据(146)。使用所确定预测模式和预测数据，视频解码器28可对纹理和深度分量中的每一者进行解码(148)。为了对分量进行解码，视频解码器28可使用适当的用信号发出的预测关系和参考，且使用视频解码功能。举例来说，视频解码器28可对残余系数进行解码，所述残余系数可经反量化(例如，通过反量化单元56)和经反变换(例如，通过反变换单元58)。

使用经解码残余系数，视频解码器28可将残余系数与预测数据组合以形成经重建构块(150)。从经重建构块，视频解码器28可产生具有纹理和深度分量的图像的帧。

使用具有纹理分量和深度图的帧，视频解码器28可产生帧的三维虚拟视图(152)。所述帧可与其它经解码帧组合以产生图像的三维虚拟视图。在一些实例中，视频解码器28不产生三维虚拟视图，而是将具有纹理分量和深度图的帧转发到外部呈现装置。

以此方式，图7的方法表示一种方法的实例，所述方法包含：接收共同位流，所述共同位流囊封了在视频数据的视图的时间实例内的视图分量中的纹理数据和深度数据，其中深度数据对应于在视频数据的视图的时间实例内的纹理数据；以及将在视频数据的视图的时间实例内的纹理数据与深度数据分离。

在一个或一个以上实例中，所描述的功能可以用硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么功能可作为一个或一个以上指令或代码存储于计算机可读媒体上或经由所述计算机可读媒体而传输，且由基于硬件的处理单元执行。计算机可读媒体可包含对应于例如数据存储媒体等有形媒体的计算机可读存储媒体，或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何媒体的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一个或一个以上计算机或者一个或一个以上处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

举例来说且并非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机存取的任何其它媒体。并且，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。然而，应了解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是针对非暂时性的有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘使用激光以光学方式再生数据。上文各者的组合也应包含在计算机可读媒体的范围内。

可由一个或一个以上处理器来执行指令，例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文描述的功能性可提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入在组合式编解码器中。并且，所述技术可完全实施于一个或一个以上电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本发明中描述了各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但不一定要求通过不同硬件单元来实现。而是，如上所述，各种单元可在编解码器硬件单元中组合或由互操作硬件单元(包含如上所述的一个或一个以上处理器)的集合结合合适软件和/或固件来提供。

已描述了本发明的各种实例。这些和其它实例属于所附权利要求书的范围内。

Claims

1.一种对视频数据进行译码的方法，所述方法包括：

接收纹理视图分量，所述纹理视图分量包括视频数据的视图的时间实例的纹理数据；

接收深度视图分量，所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及

囊封所述视图的所述时间实例的视图分量中的所述纹理视图分量和所述深度视图分量，使得所述纹理视图分量和所述深度视图分量被囊封于共同位流中。

2.根据权利要求1所述的方法，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

3.根据权利要求1所述的方法，其进一步包括：

形成所述共同位流以包含所述视图分量的所述纹理视图分量，其后连续地跟着所述视图分量的所述深度视图分量；以及

形成定界符网络抽象层NAL单元，

其中囊封包括在所述共同位流的存取单元中在所述纹理视图分量与所述深度视图分量之间提供所述定界符NAL单元。

4.根据权利要求1所述的方法，其中囊封包括：

将所述深度视图分量囊封为具有不同于用以囊封所述纹理视图分量的网络抽象层NAL单元类型的NAL单元类型的NAL单元。

5.根据权利要求1所述的方法，其进一步包括在所述位流中用信号发出与视频数据的视图有关的一个或一个以上相机的相机参数，其中用信号发出所述相机参数包括：

确定由对应于所述一个或一个以上相机的所述视图共享的内在相机参数，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；

确定由对应于所述一个或一个以上相机的所述视图共享的外在相机参数；

确定视图特定相机参数，所述视图特定相机参数包含所述一个或一个以上相机的真实世界水平位置；以及

形成序列级数据结构，所述序列级数据结构包含指示所述内在相机参数、所述外在相机参数和所述视图特定相机参数的值。

6.根据权利要求1所述的方法，其进一步包括用信号发出表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

7.根据权利要求6所述的方法，其中用信号发出表示所述转换的所述数据包括形成包括独特NAL单元类型值和表示所述转换的所述数据的NAL单元，所述方法进一步包括在共同流中在一个或一个以上存取单元中用信号发出视图参数集，其中所述视图参数集包含指示所述真实世界深度(z)值的所述范围的信息。

8.一种用于处理视频数据的装置，所述装置包括视频译码器，所述视频译码器经配置以：接收纹理视图分量，所述纹理视图分量包括视频数据的视图的时间实例的纹理数据；接收深度视图分量，所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及囊封在所述视图的所述时间实例的视图分量中的所述纹理视图分量和所述深度视图分量，使得所述纹理视图分量和所述深度视图分量被囊封于共同位流中。

9.根据权利要求8所述的装置，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

10.根据权利要求8所述的装置，其中所述视频译码器经进一步配置以：

形成定界符网络抽象层NAL单元，

11.根据权利要求8所述的装置，其中为了进行囊封，所述视频译码器经进一步配置以：

12.根据权利要求8所述的装置，其中所述视频译码器经进一步配置以在所述位流中用信号发出与视频数据的视图有关的一个或一个以上相机的相机参数，其中为了用信号发出所述相机参数，所述视频译码器经配置以：

13.根据权利要求8所述的装置，进一步其中所述视频译码器经进一步配置以用信号发出表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

14.根据权利要求13所述的装置，其中为了用信号发出表示所述转换的所述数据，所述视频译码器经配置以形成包括独特NAL单元类型值和表示所述转换的所述数据的NAL单元，且在共同流中在一个或一个以上存取单元中用信号发出视图参数集，其中所述视图参数集包含指示所述真实世界深度(z)值的所述范围的信息。

15.一种包括计算机可读存储媒体的计算机程序产品，所述计算机可读存储媒体上存储有指令，所述指令在执行时致使视频编码装置的处理器：

16.根据权利要求15所述的计算机程序产品，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

17.根据权利要求15所述的计算机程序产品，其进一步包括致使所述处理器进行以下操作的指令：

形成定界符网络抽象层NAL单元，

18.根据权利要求15所述的计算机程序产品，其中进行囊封的所述指令包括致使所述处理器进行以下操作的指令：

19.根据权利要求15所述的计算机程序产品，其进一步包括致使所述处理器在所述位流中用信号发出与视频数据的视图有关的一个或一个以上相机的相机参数的指令，其中用信号发出所述相机参数的所述指令包括致使所述处理器进行以下操作的指令：

20.根据权利要求15所述的计算机程序产品，其进一步包括致使所述处理器用信号发出表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据的指令，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

21.根据权利要求20所述的计算机程序产品，其中致使所述处理器用信号发出表示所述转换的所述数据的所述指令包括致使所述处理器形成包括独特NAL单元类型值和表示所述转换的所述数据的NAL单元且在共同流中在一个或一个以上存取单元中用信号发出视图参数集的指令，其中所述视图参数集包含指示所述真实世界深度(z)值的所述范围的信息。

22.一种用于处理视频数据的装置，其包括：

用于接收纹理视图分量的装置，所述纹理视图分量包括视频数据的视图的时间实例的纹理数据；

用于接收深度视图分量的装置，所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及

用于囊封所述视图的所述时间实例的视图分量中的所述纹理视图分量和所述深度视图分量以使得所述纹理视图分量和所述深度视图分量被囊封于共同位流中的装置。

23.根据权利要求22所述的装置，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

24.根据权利要求22所述的装置，其进一步包括：

用于形成所述共同位流以包含所述视图分量的所述纹理视图分量，其后连续地跟着所述视图分量的所述深度视图分量的装置；以及

用于形成定界符网络抽象层NAL单元的装置，

25.根据权利要求22所述的装置，其中所述用于囊封的装置包括：

用于将所述深度视图分量囊封为具有不同于用以囊封所述纹理视图分量的网络抽象层NAL单元类型的NAL单元类型的NAL单元的装置。

26.根据权利要求22所述的装置，其进一步包括用于在所述位流中用信号发出与视频数据的视图有关的一个或一个以上相机的相机参数的装置，其中所述用于用信号发出所述相机参数的装置包括：

用于确定由对应于所述一个或一个以上相机的所述视图共享的内在相机参数的装置，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；

用于确定由对应于所述一个或一个以上相机的所述视图共享的外在相机参数的装置；

用于确定视图特定相机参数的装置，所述视图特定相机参数包含所述一个或一个以上相机的真实世界水平位置；以及

用于形成序列级数据结构的装置，所述序列级数据结构包含指示所述内在相机参数、所述外在相机参数和所述视图特定相机参数的值。

27.根据权利要求22所述的装置，其进一步包括用于用信号发出表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据的装置，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

28.根据权利要求27所述的装置，其中所述用于用信号发出表示所述转换的所述数据的装置包括用于形成包括独特NAL单元类型值和表示所述转换的所述数据的NAL单元的装置，以及用于在共同流中在一个或一个以上存取单元中用信号发出视图参数集的装置，其中所述视图参数集包含指示所述真实世界深度(z)值的所述范围的信息。

29.一种对视频数据进行译码的方法，所述方法包括：

接收共同位流，所述共同位流囊封了视频数据的视图的时间实例的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括视图的所述时间实例的纹理数据，且所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及

将视频数据的所述视图的所述时间实例的所述纹理视图分量与所述深度视图分量分离。

30.根据权利要求29所述的方法，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

31.根据权利要求29所述的方法，其中所述共同位流包含在所述共同位流中的所述纹理视图分量与所述深度视图分量之间的定界符NAL单元。

32.根据权利要求29所述的方法，其中所述深度视图分量被囊封为具有不同于用以囊封所述纹理视图分量的网络抽象层NAL单元类型的NAL单元类型的NAL单元。

33.根据权利要求29所述的方法，其进一步包括获得在所述位流中用信号发出的与视频数据的视图有关的一个或一个以上相机的相机参数，其中所述位流囊封了包含指示以下各者的值的SPS数据结构：由对应于所述一个或一个以上相机的所述视图共享的内在相机参数，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；由对应于所述一个或一个以上相机的所述视图共享的外在相机参数；以及包含所述一个或一个以上相机的真实世界水平位置的视图特定相机参数。

34.根据权利要求29所述的方法，其进一步包括获得用信号发出的表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

35.一种用于处理视频数据的装置，所述装置包括视频译码器，所述视频译码器经配置以：接收共同位流，所述共同位流囊封了视频数据的视图的时间实例的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括视图的所述时间实例的纹理数据，且所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及将视频数据的所述视图的所述时间实例的所述纹理视图分量与所述深度视图分量分离。

36.根据权利要求35所述的装置，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

37.根据权利要求35所述的装置，其中所述共同位流包含在所述共同位流中的所述纹理视图分量与所述深度视图分量之间的定界符NAL单元。

38.根据权利要求35所述的装置，其中所述深度视图分量被囊封为具有不同于用以囊封所述纹理视图分量的网络抽象层NAL单元类型的NAL单元类型的NAL单元。

39.根据权利要求35所述的装置，其中所述视频译码器经进一步配置以获得在所述位流中用信号发出的与视频数据的视图有关的一个或一个以上相机的相机参数，其中所述位流囊封了包含指示以下各者的值的SPS数据结构：由对应于所述一个或一个以上相机的所述视图共享的内在相机参数，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；由对应于所述一个或一个以上相机的所述视图共享的外在相机参数；以及包含所述一个或一个以上相机的真实世界水平位置的视图特定相机参数。

40.根据权利要求35所述的装置，其中所述视频译码器经进一步配置以获得用信号发出的表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

41.一种包括计算机可读存储媒体的计算机程序产品，所述计算机可读存储媒体上存储有指令，所述指令在执行时致使视频解码装置的处理器：

42.根据权利要求41所述的计算机程序产品，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

43.根据权利要求41所述的计算机程序产品，其中所述共同位流包含在所述共同位流中的所述纹理视图分量与所述深度视图分量之间的定界符NAL单元。

44.根据权利要求41所述的计算机程序产品，其中所述深度视图分量被囊封为具有不同于用以囊封所述纹理视图分量的网络抽象层NAL单元类型的NAL单元类型的NAL单元。

45.根据权利要求41所述的计算机程序产品，其进一步包括致使所述处理器获得在所述位流中用信号发出的与视频数据的视图有关的一个或一个以上相机的相机参数的指令，其中所述位流囊封了包含指示以下各者的值的SPS数据结构：由对应于所述一个或一个以上相机的所述视图共享的内在相机参数，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；由对应于所述一个或一个以上相机的所述视图共享的外在相机参数；以及包含所述一个或一个以上相机的真实世界水平位置的视图特定相机参数。

46.根据权利要求41所述的计算机程序产品，其进一步包括致使所述处理器获得用信号发出的表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据的指令，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。

47.一种用于处理视频数据的装置，其包括：

用于接收共同位流的装置，所述共同位流囊封了视频数据的视图的时间实例的视图分量中的纹理视图分量和深度视图分量，其中所述纹理视图分量包括视图的所述时间实例的纹理数据，且所述深度视图分量包括对应于视频数据的所述视图的所述时间实例的所述纹理数据的深度数据；以及

用于将视频数据的所述视图的所述时间实例的所述纹理视图分量与所述深度视图分量分离的装置。

48.根据权利要求47所述的装置，其中所述纹理数据包括纹理数据的经译码帧的经译码片段，且其中所述深度数据包括深度数据的经译码帧的经译码片段。

49.根据权利要求47所述的装置，其中所述共同位流包含在所述共同位流中的所述纹理视图分量与所述深度视图分量之间的定界符NAL单元。

50.根据权利要求47所述的装置，其中深度数据被囊封为具有不同于用以囊封所述纹理数据的网络抽象层NAL单元类型的NAL单元类型的NAL单元。

51.根据权利要求47所述的装置，其进一步包括用于获得在所述位流中用信号发出的与视频数据的视图有关的一个或一个以上相机的相机参数的装置，其中所述位流囊封了包含指示以下各者的值的SPS数据结构：由对应于所述一个或一个以上相机的所述视图共享的内在相机参数，所述内在相机参数包括焦距和主点偏移中的一者或一者以上；由对应于所述一个或一个以上相机的所述视图共享的外在相机参数；以及包含所述一个或一个以上相机的真实世界水平位置的视图特定相机参数。

52.根据权利要求47所述的装置，其进一步包括用于获得用信号发出的表示从真实世界深度(z)值到在所述深度数据中表示为经译码帧的深度值的转换的数据的装置，其中表示所述转换的所述数据包括表示以下各者中的至少一者的数据：用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的线性函数的指示、用于将所述真实世界深度(z)值转换到所述深度视图分量的深度值的逆线性函数的指示、表示所述真实世界深度(z)值的范围的数据，以及用以用信号发出所述真实世界深度(z)值的查找表的指示。