CN102792699A

CN102792699A - 作为到视频序列的附加通道的深度代码化

Info

Publication number: CN102792699A
Application number: CN2010800529871A
Authority: CN
Inventors: 杰伊·胡恩·金; 王利民
Original assignee: General Instrument Corp
Current assignee: General Instrument Holdings Ltd; Motorola Mobility LLC
Priority date: 2009-11-23
Filing date: 2010-11-23
Publication date: 2012-11-21
Also published as: KR101365329B1; US20110122225A1; KR20120085326A; WO2011063397A1

Abstract

一种3D视频代码化装置和方法，其选择性地对来自多个视频源的视频数据代码化以包括深度信息。代码化可以通过将深度信息与诸如RGB、YCrCb、或YUV的视图信息相组合，并且与如RGBD、RCrCbD、或YUVD的视图信息一起代码化来执行。装置可以基于深度格式标记对深度信息选择性地代码化，以不包括深度信息（例如，2D格式）或包括深度信息作为色度通道。深度信息可以基于代码化成本或比率失真估计被单独地代码化或与YCrCb一起代码化，以对视频信息进行编码来获得最高质量。

Description

作为到视频序列的附加通道的深度代码化

相关申请的交叉引用

本申请要求于2009年11月23日提交的美国临时申请61/263,516的权益，其全部内容通过引用合并于此。

技术领域

本申请涉及诸如3D视频图像的视频图像中的深度代码化。

背景技术

3D再次变为吸引人的技术，并且这次，其获得来自内容提供商的支持。还具有3D能力的大多数新动画电影和很多影片将被发布并且可以广泛遍及全国在3D电影院中观看。而且，存在对体育事件的实时广播的多种测试，例如NBA和NFL比赛。为了使3D在平面屏幕中被察觉到，使用了立体影像，其模仿人类视觉系统并且分别显示由到左眼和右眼的立体摄像机捕捉的左眼视图和右眼视图。因此，其要求2D序列所要求的带宽的两倍。3D TV（3DTV）或3D视频（3DV）是使用立体影像将3D感知递送至观看者的应用。然而，因为仅在3DTV中递送用于每只眼睛的两个视图，所以用户不能改变由内容提供商固定的视点。

自由视点TV（FTV）是另一种3D应用，其使用户能够导航通过不同视点并且选择他们想要的观看那一个。为了使多个视点可用，多视图视频序列被传送至用户。实际上，如果邻近视图之间的距离满足用于立体影像的条件，则3DTV所要求的立体序列可以被认为是多视图视频序列的子集。因为数据的量根据视图的数目线性地增加，所以多视图视频图像需要被有效地压缩以用于广泛使用。

作为减少多视图视频序列的比特率的努力，JVT一直致力于多视图视频代码化（MVC）并且将其落定为对H.264/AVC的修改。在MVC中，使用用于较高代码化效率的时间和交叉视图相关性，对多视图视频序列进行编码，同时增加在时间上以及跨过视图两者的帧之间的依赖性。因此，当用户想要观看特定视图时，应当根据依赖性来解码不必要的视图。而且，当存在由相机视差导致的几何失真并且邻近视图之间的相关性很小时，MVC的压缩效率是不令人满意的。

发明内容

根据本发明的原理，本发明的装置可以包括：编码器，该编码器被配置成通过对视图数据和深度数据的组合集合编码来对视频数据编码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合可以包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。该装置可以进一步包括：深度格式单元，该深度格式单元被配置成识别视频数据的深度格式。当深度格式被设置为0时，编码器可以选择将视频数据编码为不包括深度数据的多个二维图像，或者当深度格式被设置为预定级别时，编码器可以选择将视频数据编码为视图数据和深度数据的组合集合。编码器可以进一步包括：代码化成本计算器，该代码化成本计算器确定所述视图数据和深度数据的组合集合的联合编码和所述视图数据和深度数据的组合集合的单独编码的代码化成本，并且基于所述代码化成本来在联合编码和单独编码之间确定编码模式。当编码成本小于对视图数据和深度数据单独编码的编码成本时，编码器可以将视频数据编码为视图数据和深度数据的联合编码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

根据本发明的原理，对视频数据编码的方法可以包括：在编码器处通过对视图数据和深度数据的组合集合编码来对视频数据编码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。该方法可以进一步包括：识别视频数据的深度格式。当深度格式被设置为0时，视频数据可以被编码为不包括深度数据的多个二维图像。当深度格式被设置为预定级别时，视频数据可以被编码为视图数据和深度数据的组合集合。该方法可以进一步包括：确定对所述视图数据和深度数据的组合集合联合编码和对所述视图数据和深度数据的组合集合单独编码的代码化成本，以及基于所述代码化成本来在联合编码和单独编码之间确定编码模式。当编码成本小于对视图数据和深度数据单独编码的编码成本时，视频数据可以被编码为视图数据和深度数据的联合编码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

根据本发明的原理，承载用于编码器对视频数据编码的指令的非暂时性计算机可读介质可以包括用于执行以下步骤的指令：通过对视图数据和深度数据的组合集合编码来对视频数据编码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。指令可以进一步包括：识别视频数据的深度格式。当深度格式被设置为0时，视频数据可以被编码为不包括深度数据的多个二维图像。当深度格式被设置为预定级别时，视频数据可以被编码为视图数据和深度数据的组合集合。指令可以进一步包括：确定对所述视图数据和深度数据的组合集合联合编码和对所述视图数据和深度数据的组合集合单独编码的代码化成本，以及基于所述代码化成本来在联合编码和单独编码之间确定编码模式。当编码成本小于对视图数据和深度数据单独编码的编码成本时，视频数据可以被编码为视图数据和深度数据的联合编码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

根据本发明的原理，用于对视频数据解码的装置包括：解码器，该解码器被配置成通过对视图数据和深度数据的组合集合解码来对视频数据解码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合可以包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。该装置可以进一步包括：深度格式单元，该深度格式单元被配置成识别视频数据的深度格式。当深度格式被设置为0时，解码器可以选择将视频数据解码为不包括深度数据的多个二维图像。当深度格式被设置为预定级别时，解码器可以选择将视频数据解码为视图数据和深度数据的组合集合。当所述组合集合被联合编码时，所述解码器可以对视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，对所述视图数据和深度数据的组合集合解码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

根据本发明的原理，对视频数据解码的方法包括：在解码器处通过对视图数据和深度数据的组合集合解码来对视频数据解码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。该方法可以进一步包括：识别视图数据的深度格式。当深度格式被设置为0时，视图数据可以被编码为不包括深度数据的多个二维图像。当深度格式被设置为预定级别时，视频数据可以被解码为视图数据和深度数据的组合集合。该方法可以进一步包括：当所述组合集合被联合编码时，对所述视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，对所述视图数据和深度数据的组合集合解码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

根据本发明的原理，可以承载用于解码器对视频数据解码的非暂时性计算机可读介质包括用于执行以下步骤的指令：通过对视图数据和深度数据的组合集合编码来对视频数据解码。视图数据和深度数据的组合集合可以包括以下中的一个：RGBD、YUVD、或YCbCrD。视图数据和深度数据的组合集合包含在以下至少一个中：图片组、图片、片段、块组、宏块、或子宏块。指令可以进一步包括：识别视频数据的深度格式。当深度格式被设置为0时，视频数据可以被解码为不包括深度数据的多个二维图像。当深度格式被设置为预定级别时，视频数据可以被解码为视图数据和深度数据的组合集合。指令可以进一步包括：当所述组合集合被联合编码时，对所述视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，对所述视图数据和深度数据的组合集合解码。视频数据可以是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

本发明允许深度参数与视图信息联合的3D编码。本发明允许与2D的兼容性并且可以基于在与视图联合或单独地对深度编码的RD成本来提供优化编码。而且，根据视频格式的新定义，我们提供3D视频信号的自适应代码化方法。在3D信号的自适应代码化中的YCbCrD的组合代码化期间，我们从开始就将深度看做是视频分量，在帧间预测中，除了运动矢量之外，块模式和参考索引在视图和深度之间共享。在帧内预测中，也可以共享帧内预测模式。注意，可以通过与视图一起考虑深度信息来进一步优化组合代码化的代码化结果。在视图和深度的单独代码化中，深度独立于视图被代码化。还可以具有对深度帧内代码化，而对视图帧间代码化。

附图说明

图1图示了端到端3D/FTV系统。

图2图示了用于深度估计的方法。

图3A-图3D图示了多种形式的采样视频图像。

图4图示了根据本发明的原理的编码器和解码器布置。

图5图示了根据本发明的原理的在组合代码化和单独代码化之间的每个宏块中的RD最优化（RDO）的流程图。

图6图示了根据本发明的原理的用于3D视频的自适应代码化的流程图。

图7A-图7D图示了视图和深度的PSNR的采样图像和图表。

图8A和图8B图示了在时间0和时间1的Lovebird（恩爱夫妻）1、视图2的深度。

图9A和图9B示出了用于Lovebird1和Pantomime（哑剧）的合成视图的RD曲线。

图10A和图10B图示了来自图3的Lovebirds的亮度和深度。

图11A和图11B图示了包括Lovebird2和Pantomime的其他采样图像。

具体实施方式

为了简单和说明目的，本发明通过主要参考其示例性实施例来描述。在以下描述中，阐述大量具体细节，以提供对本发明的透彻理解。然而，对本领域普通技术人员将显而易见的是，可以在没有这些具体细节的限制的情况下实施本发明。在其他实例中，不详细地描述众所周知的方法和结构，以避免不必要地模糊本发明。

图1示出用于端到端3D/FTV系统的示例性示意图。如图1中所示，由多个相机2捕捉景色或对象1的多个视图。由多个相机2捕捉的视图被校正或调整，并且在由传送器3传送之前被发送至处理器和存储系统7。处理器可以包括编码器，其将图像数据编码为指定格式。在编码器处，多个视图可用，其可以用于更有效地和正确地估计深度。

如图1中所示，用户侧通常包括接收器6，其接收从传送器3传送和编码的图像。所接收到的数据被提供至通常包括解码器的处理器/缓冲器。解码以及另外处理后的图像数据被提供至显示器5用于用户观看。

MPEG开始搜索用于多视图视频序列代码化的新标准。在MPEG活动中，利用深度信息来改进整体代码化效率。代替发送所有多视图视频序列，子采样视图，2或3关键视图与对应深度信息一起被发送，并且中间视图使用关键视图和深度被合成。假设在编码器处进行压缩之前，深度被估计（如果不被捕捉），并且在解码器处的解压缩之后，中间视图被合成。注意，在本方案中，不是所有捕捉的视图都被压缩和传送。

为了定义合适的参考技术，在MPEG中已经建立四个探索实验（EE1-EE4）。EE1从邻近视图探索深度估计，并且EE2探索视图合成技术，其使用从EE1估计的深度来合成中间视图。EE3基于分层深度视频（LDV）表示来搜索用于生成中间视图的技术。EE4探索深度图代码化如何影响合成视图的质量。

在图2中，描述了用于深度估计的EE1和用于视图合成的EE2。对于多视图序列，例如，从视图1至5，如图2中的行21中所示，可以选择任何两个视图来估计它们之间的深度。例如，视图1和视图5被用于估计深度2和深度4，如行23中所示。然后，视图2、深度2、视图4和深度4可以被编码并且传送至用户，并且可以使用深度2和深度4将视图2和视图4之间的中间视图与对应相机参数合成。在图2中，视图3被合成，如行25中所示，并且与原始视图3相比较。

在O.Stankiewicz,K.Wegner和K.Klimaszewski,“Results of3DV/FTV Exploration Experiments,described in w 10173,”ISO/IECJTC1/SC29/WG11MPEG Document M16026,Lausanne,Switzerland,Feb.2009中，观察到，合成视图的质量更多取决于编码视图的质量而不是编码深度的质量。在S.Tao,Y.Chen,M.Hannuksela和H.Li，“DepthMap Coding Quality Analysis for View Synthesis,”ISO/IECJTC1/SC29/WG11MPEG Document M16050,Lausanne,Switzerland,Feb.2009中，根据以不同比特率编码的深度来合成视图。它们提供比率和失真（R-D）曲线，其中，比率以Kbps为单位被示出以用于深度代码化，并且失真以PSNR被示出以用于合成视图。从Tao等人的文中可以看出，合成视图的质量在用于深度的比特率的大多数范围内不明显地改变。在C.Cheng,Y.Huo和Y.Liu,“3DV EE44results on Dogsequence,”ISO/IEC JTC1/SC29/WG 11MPEG Document M16047,Lausanne,Switzerland,Feb.2009中，多视图视频代码化（MVC）被用于对立体视图和深度编码，并且当H.264/AVC被用于独立地对每个视图编码时与代码化结果相比较。MVC示出与由H.264/AVC的同时联播相比少5%的代码化增益。对于深度压缩，在B.Zhu.G.Jiang,M.Yu.P.An和Z.Zhang，“Depth Map Compression for View Synthesis in FTV,”ISO/IEC JTC1/SC29/WG11MPEG Document M16021,Lausanne,Switzerland,Feb.2009中，深度被分段并且不同区域被定义为边缘（A）、运动（B）、移动对象（C）和背景（D）的内部。根据区域类型，应用了不同的块模式，其在深度压缩中得到较少编码复杂性和改进的代码化效率。

在2D视频捕捉期间，3D空间中的景色或对象被投影到相机的图像平面中，其中，像素强度表示对象的纹理。在深度图中，像素强度表示对应3D对象到/从图像平面的距离。因此，视图和深度都被捕捉（或被估计用于深度）用于相同景色或对象，因此它们共享对象的边缘或周线。图3a示出原始视图0，图3b-图3d示出序列Lovebirds的对应Cb、Cr和深度，Lovebirds来自ETRI/MPEG韩国论坛“Call forProposals on Multi-view Video Coding,”ISO/IEC JTCI/SC29/WG11MPEG Document N7327,Poznan,Poland,Jul.2005，通过引用将其合并于此。图11A和图11B示出了其他视图，包括Lovebird 2视图7和Pantomime视图37。参考图3b-图3d，根据Cb/Cr与深度的比较，可以看出，Cb/Cr和深度都共享对象边界。例如，因为颜色通道共享对象边界的信息，所以基于用于视差（深度）估计的颜色来将图像分段，G.Um,T.Kim,N.Hur和J.Kim,"Segment-based Disparity Estimation usingForeground Separation,"ISO/IEC JTC1/SC29/WG 11MPEG DocumentM15191,Antelya,Trukey,Jan.2008。

根据O.Stankiewicz等人、Tao等人、Cheng等人和Zhu等人，可以得出，深度的质量不显著改变合成视图的质量。然而，这些贡献中的所有结果都使用用于深度估计和视图合成的MPEG参考软件来获得，其通常不是最新水平技术。所估计的深度通常甚至对于相同光滑对象也是不同的，并且容易观测到时间不一致性。因此，不能推断，合成视图的质量不取决于深度的质量。而且，考虑到视图合成中的对象边界周围的1个像素错误可能导致不同合成结果，在MPEG活动中当前假设的8比特深度质量可能不足够。

然而，通过所有这些不确定性，深度应当被编码并且与用于3D服务的视图一起被传送，并且需要定义有效和灵活的代码化方案。注意，可以利用视图和深度之间的相关性，就像在从单色到彩色的过渡期间利用亮度和色度之间的相关性一样，我们提供新的灵活深度格式和代码化方案，其是反向兼容的并且适用于新3D服务的不同目标。可以通过上述技术或另一种合适方法来执行深度数据的确定。

我们将深度看作对于常规2D视频格式的附加分量，作出新3D视频格式。因此，例如，将RGB或YCbCr格式扩展到RGBD或YCbCrD以包括深度。在H.264/AVC中，可以通过chroma_format_idc标记来选择用于单色或彩色的格式。类似地，我们可以使用depth_format_idc标记来指定信号是2D的还是3D的。表1示出了如何使用chroma_format_idc和depth_format_idc来发信号2D/3D和单色/彩色的视频格式。

表1.通过depth_format_idc和chroma_format_idc定义的不同视频格式

在扩展视频格式定义中，存在用于压缩的通道的更好分组，例如，根据每个通道的分辨率或它们之间的相关性。表2举例说明视频分量可以如何被分组以利用它们之间的相关性。索引0意指YCbCrD所有都被分组到一起并且通过相同块模式进行编码。这是相同运动矢量（MV）或相同帧内预测方向被用于所有通道的情况。对于索引1，对深度独立于视图编码。索引5指定每个信道都独立地编码。

表2.用于压缩的分量的分组。相同数目意指它们被分组到一起以用于编码/解码。

组索引	Y(R)	Cb(G)	Cr(B)	D
					0	0	0	0	0
1	0	0	0	1
					2	0	1	1	1
3	0	1	1	0
					4	0	1	1	2
5	0	1	2	3

根据每个通道之间的相关性，通道可以被不同地分组。例如，假设YUV420被用于视图，并且深度是非常平稳的（smooth），因此对色度的相同分辨率足够用于深度信号。然后，Cb、Cr和D可以被看做一组并且Y被看做另一组。然后，假设Cb、Cr和D可以类似地被编码而不影响整体压缩效率，可以使用组索引2。如果深度的分辨率等于YUV420格式中的亮度的分辨率，并且深度需要以高质量被代码化，则可以使用组索引1或组索引4。如果Y和D之间存在足够的相关性，则可以另外使用组索引3。接下来，我们假设用于3D的两个不同应用，并且示出在新视频信号格式下我们可以如何利用视图和深度之间的相关性。注意，接下来解释的方法可以类似地应用至组的不同组合。

首先，我们假设所估计的深度质量不足够准确或者不要求准确，因此例如对象边界和接近深度值的基本深度信息对于所要求的视图合成质量将是令人满意的。移动设备中的深度估计或3D服务可以是这种情况的示例，其中，最高优先级将是不太复杂的深度代码化。第二，对于HD质量的3D服务，将要求高质量的深度信息，并且代码化效率将是最高优先级。

在使用用于2D视图压缩的H.264/AVC的一种实现中，depth_format_idc可以在表3中被定义，以指定附加图片格式YCbCrD。如果序列不具有用于3D应用的深度，则其被设置为0，并且通过标准H.264/AVC来编码序列。如果序列承载深度通道，则当深度格式是“D4”时，可以以到亮度（Y）的相同尺寸来编码深度，或者当深度格式是“D1”时，以到色度（Cb/Cr）的相同尺寸来编码深度，其中，分别根据SubWidthC和SubHeightC，D1的宽度和高度可以是D4的一半或者等于D4。H.264/AVC的序列参数集合中的相关联的语法改变在表4中示出。本领域技术人员将理解，编码器在编码处理期间优选地设置表4中的多种语法值，并且解码器在解码处理期间可以使用这些值。

表3.从depth_format_idc得出的SubWidthD和SubHeightD

depth_format_idc	深度格式	SubWidthD	SubHcightD
				0	没有深度(2D)	-	-
1	D1	SubWidthC	SubHcightC
				2	D4	1	1

表4.序列参数集合RBSP语法。添加的语法是‘depth_format_idc’。

假设深度值可以通过8比特信号映射，以指定深度阵列的采样的比特深度和深度量化参数范围偏移量QpBdOffset_D，在如表4中所示的序列参数集合中添加了bit_depth_depth_minus8。BitDepth_D和QpBdOffset_D被指定为：

BitDepth_D＝8+bit_depth_depth_minus8 (1)

QpBdOffset_D6*bit_depth_depth_minus8 (2)

注意，如果决定深度值基本通过N个比特表示，则等式可以相应地改变，例如，BitDepthD=N+bit_depth_depth_minusN。

为了独立于YCbCr代码化来控制编码深度的质量，当depth_format_idc>0时，depth_qp_offset出现在图片参数集合语法中。在表5中，示出了H.264/AVC中的关联语法改变。用于深度分量的QPD的值被如下确定：

用于深度分量的变量qD_Offset被如下得出。

qD_Offset＝depth_qp_offset (3)

用于深度分量的QP_D的值被如下得出：

QPD Clip3(-QpBdOffset_D，51，QPY+qD_Offset) (4)

用于深度分量的QP'_D的值被得出为

QP′_D＝QP_D+QpBdOffset_D (5)

表5.图片参数集合RBSP语法。修改后的语法是‘depth_qp_offset’。

块代码化可以包括使用宏块或宏块的倍数，例如，MB对。YCrCbDMB可以例如由Y 16x16、Cr 8x8、Cb 8x8和D 8x8构成。然而，多种块尺寸可以用于Y、Cr、Cb和D中的每个。例如，D可以具有8x8或16x16的尺寸。

接下来，解释用于深度格式D1和D4的YCbCrD代码化方案。在用于深度格式D1的一种实现中，我们以与在利用Cb/Cr和D之间的相关性的H.264/AVC中对色度代码化类似的方式对深度图编码。对于深度代码化的实现，诸如在H.264/AVC中，深度被看做就像是第三色度通道Cb/Cr/D。因此，相同块模式、帧内预测方向、运动矢量（MV）和参考索引（refIdx）被应用至Cb/Cr和D。而且，在表6中重新定义H.264/AVC中的代码化块图案（CBP），以包括深度的CBP。例如，当决定用于色度的帧内预测方向时，添加深度成本以计算用于Cb/Cr/D的总成本，并且深度与Cb/Cr共享相同帧内预测方向。在编码器处的块模式决定中，深度的比率失真（RD）成本被添加至用于YCbCr的总RD成本中，因此模式决定被优化用于视图和深度两者。仅不与Cb/Cr共享的信息是深度的剩余，其在根据CBP的Cb/Cr的剩余代码化之后被编码。

表6.修改后的CodedBlockPatternChroma值的规范

当用于深度估计的计算功率例如在移动设备中被限制，或者要求实时深度估计时，可能难以估计等于原始帧尺寸的全分辨率深度，或者所估计的深度可能不准确，对象边界周围具有不正确信息或噪声深度值。当估计的深度不准确时，可能不必以高比特率对噪声深度编码。在I.Radulovic和P.

“3DTV Exploration Experiments onPantomime sequence,”ISO/IEC JTC1/SC29/WG 11MPEG DocumentM15859，Busan，Korea，Oct.2008中，示出了随着深度估计参考软件中的平滑系数（DERS）增加，获得不太详细和较少噪声的深度图，得到较好质量的合成视图。在该情况下，我们的目标是深度代码化的简单性。我们以与在利用Cb/Cr和D之间的相关性的H.264/AVC中对色度代码化类似的方式对深度图编码。接下来，我们示出在H.264/AVC中的实现中，在Cb/Cr和深度之间如何共享代码化信息。

图4图示了根据本发明的用于估计或模拟深度的装置。对于给定序列，我们使用用于深度估计的DERS 41模块，并且然后通过水平地和垂直地使用下采样模块42来对深度图进行下采样，诸如polynormfilter David Baylon,“Polynorm Filer for Image Resizing:AdditionalConsiderations,”Motorola,Home & Networks Mobility,AdvancedTechnology internal memo DSM2008-072r1,Dec.2008。下采样深度图具有与YUV 4:2:0格式中的色度通道相同的分辨率。作为基线，视图和深度由编码器48单独地代码化，其可以是两个H.264/AVC编码器，因此生成两个独立的比特流。虽然两个编码器被示出用于基线编码，但是本领域技术人员将理解，相同（单个）编码器可以用于基线编码处理。作为D1编码方案，视图和深度通过编码器44被联合代码化，以创建单个比特流。

编码后的图像可以被提供至下游传送器3（参见图1）并且被传送至远程定位的解码器45，如通常由图4中的方向箭头示出的。本领域技术人员将理解，编码器可以在例如头端单元的网络元件中，解码器可以在例如机顶盒的用户设备中。解码器解码并且重构视图和深度参数。使用上采样器46（诸如，在Baylon的方法中再次为Polynorm滤波器）将重构的深度上采样至原始尺寸，并且被馈送至视图合成模块47，其可以包括具有重构的视图的视图合成参考软件（VSRS），以合成附加视图。因为组合的YCbCrD代码化生成用于视图和深度两者的单个比特流，所以单独代码化（YCbCr+D）中的2比特流的比特率被总计并且与YCbCrD代码化的比特率相比较。

编码可以与Y和RD优化一起执行。在用于深度格式D4的一种实现中，我们的目标是利用视图和深度之间的相关性的整体YCbCrD序列的代码化效率。因为深度分辨率等于亮度Y，而不是Cb/Cr，所以Y的代码化信息被共享用于有效深度代码化。图10A和图10B示出了来自图3的Lovebird的亮度和深度。虽然可以观测到对象形状和边界的相似性，但是在分别用于Y和D的不同位置中仍然可以找到最佳匹配最小化失真。例如，在图10A和图10B中，Y中的草的最佳匹配可能不是D中的最佳匹配，因为草的纹理在Y中重复，而草的深度看起来是噪声。因此，代替在整个图片上共享代码化信息，我们可以根据视图和深度的组合代码化（共享）和单独代码化（不共享）之间的RD成本，来选择在对每个宏块代码化中是否与深度共享Y的代码化信息。

图5图示了在组合代码化和单独代码化之间的每个宏块中的比率失真优化（RDO）的流程图。在步骤S1中，接收到宏块（MB）。在步骤S3中，视图和深度被编码为组合YCbCrD并且计算RD成本RDcost(YCbCrD)。保存所发现的最佳代码化信息，包括帧内预测模式、运动矢量和参考索引，诸如用于视图和深度的联合代码化以及视图和深度的独立代码化。在步骤S5和S7中，视图和深度被独立编码，并且计算各个RD成本RDcost(YCbCr)和RDcost(D)。在步骤S11，我们比较RDcost(YCbCrD)和‘RDcost(YCbCr)+RDcost(D)’。选择对于当前宏块具有最小RD成本的一个。也就是，如果组合YCbCrD的RD成本小于单独RD(YCbCr)+RD(D)的RD成本，则在步骤S15，用组合结果（YCbCrD）来更新MB。在步骤S13，如果组合YCbCrD的RD成本不少于单独RD(YCbCr)+RD(D)的RD成本，则用单独结果（YCbCr和D）来更新MB。在步骤S17中，下一个MB将被处理。可以分别维持用于YCbCr和D的两个单独代码化的块信息，作为对未来宏块编码的参考。

当应用了组合YCbCrD代码化时，通过共享块模式、帧内预测方向、MV和refIdx来利用Y和D中的对象的边缘和周线的相似性。然而，Y和D的纹理通常不类似，因此在组合编码中不共享代码化后的块图案（CBP）和剩余信息。表7概述了YCbCrD组合代码化中的共享和非共享信息。

表7.YCbCrD组合代码化中的共享和非共享信息

	共享信息	非共享信息
			INTRA	块模式，帧内预测方向	CBP，剩余
INTER(16x16，...,8x8)	块模式，MV，RefIdx	CBP，剩余

为了发信号在每个宏块中是使用组合代码化还是单独代码化，mb_YCbCrD_flag被引入为新标记，其可以是分别指示单独或组合代码化的0或1。该标记可以通过CABAC编码，并且可以从邻近左面和上面的块通过mb_YCbCrD_flag来定义三个上下文。用于当前MB的上下文索引c定义如下：

c＝mb_YCbCrD_flag(在左面的ⅢB中)+mb_YCbCrD_flag(在上面的ⅢB中)

在该方法中，我们提供与常规2D视频兼容的新视频格式，因此可以用于2D和3D视频信号。如果例如YCbCrD的3D视频信号被发送，则深度被包括为视频分量。如果仅例如YCbCr的没有深度的2D视频信号被发送，则2D视频可以与等于0的指定不存在深度分量的depth_format_idc一起被发送。

而且，根据视频格式的新定义，我们提供3D视频信号的自适应代码化方法。在3D信号的自适应代码化中的YCbCrD的联合代码化期间，我们从开始将深度看做视频分量，因此除了运动矢量（MV）之外，在视图和深度之间共享帧间预测、块模式和参考索引。在帧内预测中，还可以共享帧内预测模式。注意，组合代码化的代码化结果可以通过与视图一起考虑深度信息而被进一步优化。在视图和深度的单独代码化中，深度独立于视图被代码化。例如，深度可以通过16x16帧间块模式编码/解码，而视图被编码为8x8帧间块模式。还可以具有帧内编码深度，而视图被帧间编码。注意，通过将深度看作到视图的附加通道，而不通过从视图到深度重新使用MV，RD优化的自适应代码化是可能的。

组合前述内容，图6示出了根据本发明的用于3D视频的自适应代码化的流程图。处理开始于步骤S20。如步骤S22中所示，通过等于0的depth_format_idc标记，在步骤S24，视频信号被看做2D并且使用常规2D编码（例如，H.264/AVC、MPEG 2、或H.265/HEVC）。在步骤S28，如果depth_format_idc标记是1，则深度被编码就像其是第三色度通道一样，其是与用于色度的分辨率相同的分辨率。通过等于2的depth_format_idc标记，深度是与用于色度的分辨率相同的分辨率，并且基于RD成本，自适应联合/单独代码化被应用至视图和深度（步骤S26）。如图6中所示，RD成本可以根据图5中所示的处理来确定。注意，我们示出如何可以在表2中的组索引0、1、3和4之间应用自适应代码化。根据应用、通道之间的相关性，可以将该方法扩展至表2中的任何组索引。

对于上述D1方法，其基于视图和深度之间的相关性的观测来提供深度代码化的简单性，我们将当前YCbCr序列格式扩展到YCbCrD，使得深度可以被看作和编码为到视图的附加通道。根据该扩展格式，我们示出YCbCrD的两个不同压缩方案。通过深度格式D1，在H.264/AVC中对深度编码，与Cb/Cr共享代码化信息，因此附加编码器复杂性是不可忽视的并且整体编码器复杂性类似于原始H.264/AVC。在深度格式D4中，可以对深度编码，与Y共享代码化信息。注意，甚至对于相同对象，用于Y和D的最佳预测也可能不同，YCbCr和D的组合代码化或单独代码化通过每种方法的RD成本来决定。

在通过深度格式D1和D4的实验结果中，验证我们用于深度的编码方法实现了用于深度格式D1的不太复杂编码器和用于深度格式D4的较高代码化效率的目标。

以深度格式D1的YCbCrD代码化在Motorola H.264/AVC编码器（Zeus）中实现并且与YCbCr和深度的独立代码化相比较。我们使用来自Lovebird1的视图1、2、3、4和5、以及其他图像，例如，来自Pantomime的视图36、37、38、39和40，图2中所示的以下MPEG EE1和EE2过程。Lovebird1中的视图3被合成，并且将合成视图的质量与原始视图进行比较。原始Lovebird1序列是YUV 4:2:0格式，并且depth_format_idc被设置为1，因此深度阵列具有与Cb和Cr相同的尺寸。

在图7A-图7D中，关于分别用于Lovebird1和Pantomime的总比特率示出了视图和深度的峰值信噪比（PSNR）。用于Lovebird2和Pantomime的图像可以分别在图11A和图11B中找到。更特别地，图7A和图7B图示了PSNR相对于用于图像Lovebird1的总比特率的图表，并且图7C和图7D图示了用于Pantomime的图表。这些图表图示了由YUVD深度和三角形示出的通过YCbCrD代码化重新构建的深度的质量比由IND深度和“x”示出的通过独立深度代码化构建的深度的质量更差。然而，由YUVD视图和菱形示出的YCbCrD代码化重新构建的视图的质量类似于由IND视图和正方形示出的独立代码化重新构建的视图的质量。这是因为所估计的深度图在时间上不是一致的，如可以从图8a和图8b中看出的。而且，在YCbCrD代码化中，编码器没有被完全优化，以处理用于深度的时间不一致性，这仅被认为是YCbCrD序列中的附加通道。

图8A-图8B图示了时间0和时间1的Lovebird1、视图2的深度。还注意，在图8B中，所估计的深度图的对象边界是有噪声的并且没有与视图中的对象边界对准。注意，在图8中，红色圆圈区域属于视图中的静态背景，但是在深度上具有不同强度。除了红色圆圈区域之外，可以容易地发现时间不一致性。

图9A和图9B示出了用于Lovebird1和Pantomime的合成视图的RD曲线。因为中间视图通过两个邻近视图合成，所以在曲线图中添加和使用用于两个邻近视图的比特率。对于失真，使用合成视图的PSNR。通过YCbCrD代码化合成的视图的质量类似于在RD意义上的独立代码化的质量。在图7A-图7D中，已经示出解码后的左视图和右视图在RD中具有类似质量。因此，组合代码化和单独代码化在用于关键视图和合成视图的RD意义上具有类似结果。注意，深度图被用于合成视图，并且不被显示用于观看。然而，所组合的YCbCrD代码化提供了易于实现的水平，并且在单个比特流中提供了对现有代码化标准的后向兼容性。YCbCrD代码化可以用作用于深度代码化的扩展格式，并且在常规视频代码化标准中容易实现。

对于提供编码效率的上述D4方法，测试了由MPEG、Lovebird1、Lovebird2和Pantomime提供的三个序列（其是MEPG序列），并且通过DERS来估计深度。作为基线，H.264/AVC被用于单独地对视图和深度代码化，并且比特率被添加至用于视图和深度的总比特率。表8示出了视图和深度的独立代码化分别要求多少比特。用于深度和视图的比特率在从4.5%到98%的范围内。用于Lovebird1和Lovebird2的估计的深度比Pantomime更嘈杂，并且视图在时间上相对是静态的（没有快速运动）。因此，深度代码化需要相对更多的比特，并且视图代码化需要更少的比特。

表8.对深度和视图编码所要求的比特率（Zeus的IPPP）

在表9中，对于不同QP，示出了每个序列中的组合YCbCrD代码化的百分比。注意，在较低比特率（较高QP）下，优选组合YCbCrD代码化。在表10中，对于具有IPPP和IBBP代码化结构的每个序列，示出了视图和深度的代码化结果。为了计算用于比特率和失真的增益，使用由Bjontegaard Gisle Bjontegaard，“Calculation of Average PSNRDifferences between RD curves”,ITU-T SC16/Q6,13th VCEG Meeting,Ausin,Texas,USA,April 2011,Doc.VCEG-M33中提出的RD计算方法。注意，通过我们的YCbCrD代码化方案，通过IPPP在深度上实现约6%增益，通过IBBP在视图上实现约5%增益。

表9.组合YCbCrD代码化的百分比（Zeus的IPPP）

表10.视图和深度的代码化结果

在表11-13中，对于我们的YCbCrD代码化和用于IPPP代码化结果的单独代码化（基线），比较了视图合成结果。在每个序列中通过PSNR测量的失真对于YCbCrD和基线两者是类似的，但是通过YCbCrD代码化减小了总比特率。然而，根据表8，合成视图中的整体代码化增益小于通过深度代码化实现的整体代码化增益。这是因为通过DERS估计的深度是不准确的，并且合成视图的质量取决于还未被确认的VSRS的准确度。

表11.用于Lovebird1的视图合成的实验结果

表12.用于Lovebird2的视图合成的实验结果

表13.用于Pantomime的视图合成的实验结果

图5-图6中阐述的一些或所有操作可以作为工具、程序、或子程序包含在任何期望的计算机可读存储介质中，其可以是非暂时性介质。另外，操作可以通过计算机程序具体化，其可以以多种形式存在，活动的和非活动的。例如，它们可以作为由源代码、目标代码、可执行代码或其他格式的程序指令构成的软件程序存在。以上任一个都可以在包括存储器件的计算机可读存储介质上具体化。

示例性计算机可读存储媒体包括常规计算机系统RAM、ROM、EPROM、EEPROM、以及磁性或光盘或带。前述具体示例包括程序在CD ROM或经由互联网下载的分发。因此，应当理解，能够执行上述功能的任何电子设备都可以执行上述那些功能。

在此描述和图示了本发明的实施例以及它们的一些变体。在此使用的术语、描述和图仅通过说明的方式阐述并且不意在限制。本领域技术人员将认识到，很多变体都可以在本发明的实施例的精神和范围内。

本发明允许深度参数联合视图信息的3D编码。本发明允许以2D的兼容性并且可以在对深度以视图联合或单独编码中基于RD成本来提供优化的编码。而且，根据视频格式的新定义，我们提供了3D视频信号的自适应代码化方法。在3D信号的自适应代码化中的RGBD、YUVD和YCbCrD的组合代码化期间，我们从开始就将深度看作视频分量，因此，在帧间预测中，除了运动矢量之外，在视图和深度之间共享块模式和参考索引。在帧内预测中，还可以共享帧内预测模式。注意，组合代码化的代码化结果可以通过与视图一起考虑深度信息而进一步被优化。在视图和深度的单独代码化中，深度独立于视图被代码化。还可以具有帧内代码化的深度，而视图被帧间代码化。

虽然贯穿本公开的整体进行了特别描述，但是本发明的代表性实施例在应用的广泛范围内具有实用性，并且以上论述不旨在并且不应当被解释为限制性的，而是被提供为本发明的多个方面的说明性论述。

Claims

1.一种用于对视频数据编码的装置，包括：

编码器，所述编码器被配置成通过对视图数据和深度数据的组合集合编码来对所述视频数据编码。

2.根据权利要求1所述的装置，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

3.根据权利要求2所述的装置，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

4.根据权利要求1所述的装置，进一步包括：深度格式单元，所述深度格式单元被配置成识别所述视频数据的深度格式。

5.根据权利要求4所述的装置，其中，当所述深度格式被设置为0时，所述编码器选择将所述视频数据编码为不包括深度数据的多个二维图像。

6.根据权利要求4所述的装置，其中，当所述深度格式被设置为预定级别时，所述编码器选择将所述视频数据编码为所述视图数据和深度数据的组合集合。

7.根据权利要求1所述的装置，其中，所述编码器进一步包括：代码化成本计算器，所述代码化成本计算器确定对所述视图数据和深度数据的组合集合的联合编码以及对所述视图数据和深度数据的组合集合的单独编码的代码化成本，并且基于所述代码化成本来在联合编码和单独编码之间确定编码模式。

8.根据权利要求7所述的装置，其中，当所述编码成本小于对所述视图数据和深度数据单独编码的编码成本时，所述编码器将所述视频数据编码为视图数据和深度数据的联合编码。

9.根据权利要求1所述的装置，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

10.一种对视频数据编码的方法，包括：

在编码器处通过对视图数据和深度数据的组合集合编码来对所述视频数据编码。

11.根据权利要求10所述的方法，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

12.根据权利要求11所述的方法，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

13.根据权利要求10所述的方法，进一步包括：识别所述视频数据的深度格式。

14.根据权利要求13所述的方法，其中，当所述深度格式被设置为0时，所述视频数据被编码为不包括深度数据的多个二维图像。

15.根据权利要求13所述的方法，其中，当所述深度格式被设置为预定级别时，所述视图数据和深度数据的组合集合被编码。

16.根据权利要求10所述的方法，进一步包括：确定对所述视图数据和深度数据的组合集合联合编码以及对所述视图数据和深度数据的组合集合单独编码的代码化成本，以及基于所述代码化成本在联合编码和单独编码之间确定编码模式。

17.根据权利要求16所述的方法，其中，当所述编码成本小于对所述视图数据和深度数据单独编码的编码成本时，所述视频数据被编码为视图数据和深度数据的联合编码。

18.根据权利要求10所述的方法，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

19.一种承载用于编码器对视频数据编码的指令的非暂时性计算机可读介质，包括用于执行以下步骤的指令：

通过对视图数据和深度数据的组合集合编码来对所述视频数据编码。

20.根据权利要求19所述的计算机可读介质，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

21.根据权利要求20所述的计算机可读介质，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

22.根据权利要求19所述的计算机可读介质，进一步包括：识别所述视频数据的深度格式。

23.根据权利要求22所述的计算机可读介质，其中，当所述深度格式被设置为0时，所述视频数据被编码为不包括深度数据的多个二维图像。

24.根据权利要求22所述的计算机可读介质，其中，当所述深度格式被设置为预定级别时，所述视图数据和深度数据的组合集合被联合编码。

25.根据权利要求19所述的计算机可读介质，进一步包括：确定对所述视图数据和深度数据的组合集合联合编码以及对所述视图数据和深度数据的组合集合单独编码的代码化成本，以及基于所述代码化成本来在联合编码和单独编码之间确定编码模式。

26.根据权利要求25所述的计算机可读介质，其中，当所述编码成本小于对所述视图数据和深度数据单独编码的编码成本时，所述视频数据被编码为视图数据和深度数据的联合编码。

27.根据权利要求19所述的计算机可读介质，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

28.一种用于对视频数据解码的装置，包括：

解码器，所述解码器被配置成通过对视图数据和深度数据的组合集合解码来对所述视频数据解码。

29.根据权利要求28所述的装置，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

30.根据权利要求29所述的装置，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

31.根据权利要求28所述的装置，进一步包括：深度格式单元，所述深度格式单元被配置成识别所述视频数据的深度格式。

32.根据权利要求31所述的装置，其中，当所述深度格式被设置为0时，所述解码器选择将所述视频数据解码为不包括深度数据的多个二维图像。

33.根据权利要求31所述的装置，其中，当所述深度格式被设置为预定级别时，所述解码器选择将所述视频数据解码为所述视图数据和深度数据的组合集合。

34.根据权利要求28所述的装置，其中，当所述组合集合被联合编码时，所述解码器对所述视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，所述解码器对所述视图数据和深度数据的组合集合解码。

35.根据权利要求28所述的装置，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

36.一种对视频数据解码的方法，包括：

在解码器处通过对视图数据和深度数据的组合集合解码来对所述视频数据解码。

37.根据权利要求36所述的方法，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

38.根据权利要求37所述的方法，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

39.根据权利要求36所述的方法，进一步包括：识别所述视频数据的深度格式。

40.根据权利要求39所述的方法，其中，当所述深度格式被设置为0时，所述视频数据被解码为不包括深度数据的多个二维图像。

41.根据权利要求39所述的方法，其中，当所述深度格式被设置为预定级别时，所述视图数据和深度数据的组合集合被联合解码。

42.根据权利要求36所述的方法，进一步包括：当所述组合集合被联合编码时，对所述视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，对所述视图数据和深度数据的组合集合解码。

43.根据权利要求36所述的方法，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。

44.一种承载用于解码器对视频数据解码的指令的非暂时性计算机可读介质，包括用于执行以下步骤的指令：

通过对视图数据和深度数据的组合集合编码来对所述视频数据解码。

45.根据权利要求44所述的计算机可读介质，其中，所述视图数据和深度数据的组合集合包括以下中的一个：RGBD、YUVD、或YCbCrD。

46.根据权利要求45所述的计算机可读介质，其中，所述视图数据和深度数据的组合集合包含在以下的至少一个中：图片组、图片、片段、块组、宏块、或子宏块。

47.根据权利要求44所述的计算机可读介质，进一步包括：识别所述视频数据的深度格式。

48.根据权利要求47所述的计算机可读介质，其中，当所述深度格式被设置为0时，所述视频数据被解码为不包括深度数据的多个二维图像。

49.根据权利要求47所述的计算机可读介质，其中，当所述深度格式被设置为预定级别时，所述视图数据和深度数据的组合集合被联合解码。

50.根据权利要求44所述的计算机可读介质，进一步包括：当所述组合集合被联合编码时，对所述视图数据和深度数据的组合集合选择性地联合解码，或者当所述组合集合被单独编码时，对所述视图数据和深度数据的组合集合解码。

51.根据权利要求44所述的计算机可读介质，其中，所述视频数据是以下中的一个：具有深度的多视图、没有深度的多视图、具有深度的单视图、没有深度的单视图。