CN102132573B

CN102132573B - 用于编码3d视频信号的方法和系统，用于编码3d视频信号的编码器，用于解码3d视频信号的方法和系统，用于解码3d视频信号的解码器

Info

Publication number: CN102132573B
Application number: CN2009801333165A
Authority: CN
Inventors: J.范德霍斯特; B.G.B.巴伦布鲁格; G.W.T.范德海登
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-08-26
Filing date: 2009-08-17
Publication date: 2013-10-23
Anticipated expiration: 2029-08-17
Also published as: EP2319248A1; US20110149037A1; JP2012501031A; WO2010023592A1; RU2011111557A; TW201016013A; JP5544361B2; KR20110058844A; RU2503062C2; BRPI0912953A2; CN102132573A

Abstract

在用于编码的方法和用于3D视频信号的解码器中，主要数据层、用于主要数据层的深度图和其他数据层被编码。通过将来自起点的数据层的数据段（比如数据块）移动到公共数据层并且保存附加的数据流中位移的记录来将若干数据层组合在一个或多个公共数据层中。

Description

用于编码3D视频信号的方法和系统,用于编码3D视频信号的编码器,用于解码3D视频信号的方法和系统,用于解码3D视频信号的解码器

技术领域

本发明涉及视频编码和解码的领域。本发明提出用于编码3D视频信号的方法、系统和编码器。本发明还涉及用于解码3D视频信号的方法、系统和解码器。本发明还涉及编码的3D视频信号。

背景技术

最近，人们对在3D图像显示器上提供3D图像非常感兴趣。人们相信，在彩色成像之后，3D成像将在成像方面成为下一个伟大创新。我们现在正处在针对消费者市场引入3D显示器来临之际。

3D显示设备通常具有显示屏，图像在显示屏上显示。

基本上，三维印象可以通过使用立体像对（即导向观看者的两个眼睛的两个略有不同的图像）来创建。

存在若干种产生立体图像的方式。所述图像可以在2D显示器上被时间复用，但是这需要观看者佩戴具有例如LCD快门的眼镜。当立体图像同时显示时，可以通过使用头部安装的显示器、通过使用偏振的眼镜（随后利用正交偏振的光产生所述图像）或通过使用快门眼镜将所述图像导向适当的眼睛。观察者佩戴的眼镜有效地将相应的左或右视图发送（route）到相应的眼睛。眼镜中的快门或偏振器与帧频同步以控制所述发送。为了防止闪烁，相对于二维等效图像，帧频必须加倍或分辨率必须减半。这种系统的缺点在于，必须佩戴眼镜以产生任何效果。这对于不习惯佩戴眼镜的那些观察者而言是令人不愉快的，并且这对于那些已经佩戴眼镜的观察者而言是一个潜在的问题，因为附加的一副眼镜不总是合适的。

取代在观看者的眼睛附近，所述图像也可以在显示屏处借助分屏幕（比如从US 6118584已知的透镜状屏幕或如在US 5,969,850中示出的视差屏障）而被分离。这样的设备被称为自动立体显示器，因为它们在没有使用眼镜的情况下提供（自动）立体效果。已知若干不同类型的自动立体设备。

无论使用什么类型的显示器，3D图像信息都必须被提供给显示设备。这通常以包括数字数据的视频信号的形式进行的。

由于数字成像中固有的大量数据，数字图像信号的处理和/或传输构成重大问题。在许多情况中，可获得的处理能力和/或传输容量不足以处理和/或传输高质量的视频信号。更具体地，每个数字图像帧是从像素的阵列形成的静止图像。

原始数字信息的量通常是大量的，需要大处理能力和/或大传输速率，这些不总是可获得的。已经提出了减少待传输的数据量的各种压缩方法，包括例如MPEG-2、MPEG-4和H.264。

这些压缩方法最初是针对标准的2D视频/图像序列而制定的。

当内容被显示在自动立体3D显示器上时，必须再现多个视图并且沿不同方向发送这些视图。观看者的眼睛上将有不同的图像并且这些图像被再现使得该观看者感知到深度。这些不同的视图代表不同的观看角度。然而，在输入数据上通常仅一个观看角度是可见的。因此，这些再现的视图将在例如前景对象之后的区域中具有遗漏信息或在对象侧面上具有遗漏信息。存在处理该遗漏信息的不同方法。一种方法是加入来自不同角度的附加的视点（包括对应的深度信息），根据附加的视点可以再现其间的视图。然而，这将大大增加数据的量。而且在复杂的图片中，需要超过一个的附加的视角，从而再次增加了数据量。另一个解决方案是将数据以代表隐藏在前景对象之后的3D图像的部分的遮挡数据的形式加入到图像。该背景信息是从相同的或还有侧视角存储的。所有这些方法需要附加的信息，其中针对所述信息的分层结构是最高效的。

如果在3D图像中许多对象被定位在彼此之后，则可能存在许多不同的其他层的其他信息。其他层的量能够显著增长，从而增加了待生成的大量的数据。其他数据层可以是各种类型的，所有这些类型在本发明的框架内被表示为其他层。在简单的布置中，所有对象是不透明的。背景对象随后被隐藏在前景对象之后并且各种背景数据层可能是重构3D图像所必需的。为了提供所有信息，构成3D图像的各种层信息必须是已知的。而且优选地还将各背景层中的每一层与深度层关联。这创建了一种其他类型的其他数据层。一个更复杂的步骤是其中一个或多个对象是透明的情形。为了重构3D图像，于是需要颜色数据以及深度数据，而且具有用于构成3D图像的各种层的透明度数据。这将允许其中一些或所有对象是透明的3D图像被重构。而一个步骤进一步将是赋予各种对象透明度数据，可选地也是角度相关的。对于一些对象，透明度依赖于我们注视对象的角度，因为在直角处对象的透明度通常比在斜角处更大。供给这种其他数据的一种方式是供给厚度数据。这将加入另外的其他数据的另外的其他层。在高度复杂的实施例中，透明的对象将具有透镜化效果，并且给出透镜化效果数据的数据层将归因于每个层。反射效果，例如镜面反射率形成又一个数据集。

数据的另外的其他附加层可以是来自侧视图的数据。

如果一个人站在诸如餐具橱之类的对象之前，则对象的侧壁可能是不可见的；即使加入在餐具橱之后各种层中的对象的数据，这些数据层将仍然不能够重构在侧壁上的图像。通过加入优选地来自视图的各种侧视点（到主要视图的左和右）的侧视图数据，也可以重构侧壁图像。所述侧视图信息本身也可包括具有涉及透明度等的颜色、深度、透明度、厚度等的数据的若干层信息。这再次添加了更多的其他层数据。在多视图表示中，层的数量可以非常迅速地增加。

由于越来越多的效果或越来越多的视图被添加以提供越来越逼真的3D再现，所以在存在多少对象层的意义上以及在被赋予对象的每个层的数据的不同类型的数量的意义上，需要越来越多的其他数据层。

如上所述，各种不同类型的数据可被分层，相对简单类型的数据是颜色和深度数据，并且更复杂类型是透明度数据、厚度、（镜面）反射率。

因此，本发明的一个目的是提供一种用于编码3D图像数据的方法，其中在没有数据丢失或仅有少量数据丢失的情况下减少将要生成的数据的量。优选地，所述编码效率较大。而且，优选地，所述方法与现有的编码标准兼容。

另一个目的是提供一种用于编码3D视频信号的改进的编码器、一种用于解码3D视频信号的解码器以及一种3D视频信号。

发明内容

为此目的，根据发明的用于编码的方法的特征在于，输入的3D视频信号被编码，该输入的3D视频信号包括主要视频数据层、用于主要视频数据层的深度图并且包括用于主要视频数据层的其他数据层，其中属于主要视频数据层、用于主要视频层的深度图和其他数据层的不同数据层的数据段被移动到一个或多个公共数据层，并且其中生成附加的数据流，其包括指定用于每个移动的数据段的原始位置和/或原始的其他层的附加数据。

所述主要视频数据层是被作为基础的数据层。通常，它是将在2D图像显示器上再现的视图。通常，该视图将是包括中心视图的对象的中心视图。然而，在本发明的框架内，主要视图帧的选择不被限于此。例如，在多个实施例中，所述中心视图可以由若干个对象层构成，其中最相关的信息不是由包括大部分在前景中的那些对象的层而是由对象的下一层承载，例如在焦点中的对象层，而一些前景对象不是。如果小的前景对象在视点与令人最感兴趣的对象之间移动，则情况可以例如是这样。

在本发明的框架内，用于主要视频数据层的其他层是与主要视频数据层共同用在重构3D视频中的层。在主要视频数据层描绘前景对象的情况下，这些层可以是背景层，或者在主要视频数据层描绘背景对象的情况下，它们可以是前景层，或者在主要视频数据层包括关于前景与背景对象之间的对象的数据的情况下，它们可以是前景以及背景层。

这些其他层可以包括用于主要视频数据层、用于相同视点的背景/前景层，或者包括用于与主要视频数据层共同使用的侧视图的数据层。

可以在上述其他层中提供的所述各种不同数据如上所述并且包括：

- 颜色数据

- 深度数据

- 透明度数据

- 反射率数据

- 标度数据

在优选实施例中，所述其他层包括来自与用于主要视频数据层的视图相同的视点的图像和/或深度数据和/或其他数据。

本发明的框架内的实施例也包含来自其他视点的视频数据，比如呈现在多视图视频内容中的视频数据。而且，在后一种情况下，层/视图可被结合，因为侧视图的大部分可以从中心图像和深度重构，所以这样的侧视图的部分可以用于存储其他信息，比如来自其他层的部分。

针对从其他层移动到公共层的段生成附加的数据流。附加的数据流中的附加数据指定用于所述段的原始位置和/或原始的其他层。该附加的流实现了在解码器侧重构原始层。

在一些情况下，移动的段将保持它们的x-y位置并且将仅仅朝向公共层移动。在这些情况下，它满足：附加的数据流包括用于指定起源的其他层的段的数据。

在本发明的框架内，公共层可以具有主要数据层的段和其他数据层的段。一个实例是其中主要数据层包括天空的大部分的情形。所述层的这样的部分通常可以容易地由描述蓝色部分的范围和所述颜色（和可能的例如颜色的变化）的参数来表示。这将在主要层上创建空间，可以将来自其他层的数据移动到所述空间中。这可以允许减少公共层的数量。

关于向后兼容的优选实施例是其中公共层仅包括其他层的段的实施例。

不改变主要层并且优选地也不改变用于主要层的深度图允许所述方法在现有设备上容易地实现。

在本发明的框架内，段可以采取任何形式，但是在优选实施例中，所述数据在对应于视频编码方案的粒度水平的粒度水平上被处理，例如在宏块水平上处理。

来自不同的其他层的段或块可以在原始的不同的其他层内（例如在不同的遮挡层内）具有相同的x-y位置。在这样的实施例中，公共层内至少一些段的x-y位置被重新排序并且至少一些块被重新定位，即它们的x-y位置被移位到公共数据层的另一个空部分。在这样的实施例中，附加的数据流针对段除了提供指示起始层的数据之外，还提供指示重新定位的数据。该重新定位数据可以是例如指定原始层内的原始位置或关于当前位置的移位的形式。在一些实施例中，所述移位对于其他层的所有元素而言可以是相同的。

移动到公共层（包括可能的重新定位）优选地在时间中的相同位置处完成，其中重新定位在x-y平面中完成。然而，在多个实施例中，所述移动或重新定位也可以沿着时间轴来执行：如果在场景内许多树被排成一行并且相机摇摄（pan）以使得在一个时间点处这些树排成一行，则存在具有许多遮挡数据（至少许多层）的短周期：在多个实施例中，这些宏块中的一些可被移动到先前/随后帧的公共层。在这样的实施例中，与移动的段相关联的附加的数据流指定了原始的其他层数据包括时间指示。

所述移动的段可以是扩展的区域，但是重新定位优选地在一个或多个宏块的基础上完成。数据的附加流将优选地被编码，包括用于公共层的每个块的信息，该信息包括它们在原始其他层内的位置。附加的流也可以具有附加信息，其进一步指定关于所述块或关于它们来自的层的额外信息。在多个实施例中，关于原始层的信息可以是明确的，例如指定所述层本身；然而在多个实施例中，所述信息也可以是隐含的。

在所有情况下，附加的流将是相对较小的，这是因为以下事实：单个数据元素排他地且同时描述宏块中所有的16x16个像素或者描述一个段中甚至更多的像素。有效数据的和增加了一点，然而其他层的量显著减少，从而减少了总数据量。

一个或多个公共层加上一个或多个附加流随后可以例如在带宽受限的监视器接口上传播并且在监视器本身（即监视器固件）中被重排序回到它的原始的多层形式，随后这些层可以用于再现3D图像。本发明允许所述接口利用更小的带宽承载更多的层。现在在附加的层数据的数量上而不是在层的数量上设置了上限。而且，该数据流可以以图像类型数据的固定形式高效地设置，从而使得它保持与当前显示器接口兼容。

在优选实施例中，公共层包括相同类型的数据段。

如前所解释，所述其他层可以包括各种类型的数据，比如颜色、深度、透明度等等。

在本发明的框架内，在一些实施例中，各种不同类型的数据被组合在公共层中。随后，公共层可以包括包含例如颜色数据的段和/或包含深度数据和/或透明度数据的段。所述附加的数据流将使得所述段能够被解开（disentangled）并且使得各种不同的其他层能够被重构。这样的实施例在尽可能减少层的数量的情形中是优选的。

在简单的实施例中，公共层包括相同类型的数据段。尽管这将增加要被发送的公共层的数量，但是这些实施例允许重构侧进行较不复杂的分析，因为每个公共层仅包括单个类型的数据。在其他实施例中，公共层包括具有有限数量数据类型的数据的段。最优选的组合是颜色数据和深度数据，其中其他类型的数据被设置在单独的公共层中。

段从其他数据层到公共数据层的移动在本发明的不同实施例中可以在不同的阶段执行，或者在内容创建期间（其中它们被在宏块水平上重新排序（宏块特别地对于2D视频编码器而言是最佳的）并且随后在视频编码器之前被编码），或者在播放器侧（其中多个层被解码并且随后在宏块或更大的段水平处实时地被重排序）。在第一种情况下，所生成的重排序的坐标也应当必须在视频流中被编码。缺点可能是，该重排序可对视频编码效率具有消极影响。在第二种情况下，缺点是对所述重排序如何发生不能完全控制。当在输出上存在太多用于可能的公共层的量的宏块并且宏块必须被扔掉时，这特别地是一个问题。内容创建者将或许想要控制什么被扔掉而什么不被扔掉。这两种情况之间的组合也是可能的。例如，按原样对所有层进行编码并且另外地存储移置坐标，播放器稍后在回放期间可以使用这些移置坐标来实际地对宏块进行移置。后一种选项将允许控制可以显示什么并且将允许进行传统编码。

在其他实施例中，通过使用减少的颜色空间进一步减少用于标准RGB+D图像的数据的量，并且该方式具有甚至更大的带宽以使得可以在图像页中存储甚至更多的宏块。这例如通过将RGBD空间编码为YUVD空间是可能的，其中U和V按照视频编码的常见情况被二次采样。在显示器接口处应用这一点可以创建用于更多信息的空间。而且，可以降低向后兼容性，使得第二层的深度通道可以用于本发明。创建更多空白空间的另一种方式是使用更低分辨率的深度图，以使得在额外的深度信息之外存在空间以存储例如来自第三层的图像和深度块。在所有这些情况中，在宏块或段水平处的额外信息可以用于对段或宏块的标度进行编码。

本发明还体现在一种包括编码器的系统中并且体现在一种用于编码3D视频信号的编码器、一种编码的3D视频信号中，该编码的3D视频信号包括主要视频数据层、用于主要视频数据层的深度图和用于主要视频数据层的其他数据层，其中所述编码器包括用于所述其他层的输入，该编码器包括创建器（creator），其通过将不同的其他数据层的数据段移动到公共数据层中并且生成附加的数据流（包括标识移动的数据段的起源）而将来自超过一个的其他层的数据段组合到一个或多个公共数据层中。

在优选实施例中，所述块仅被水平地重新定位，从而使得解码器将仅需要尺寸大约为16行的小存储器来取代完全的和快速的帧缓冲器。如果所需的存储器较小，则可以使用嵌入式存储器。该存储器通常比单独的存储器芯片快得多但小得多。优选地，也生成指定起始遮挡层的数据。然而，该数据也可以从诸如深度数据之类的其他数据推导出。

已经发现，通过不同于主要层地缩减所述其他数据的规模可以获得在位方面的进一步减少。特别地对于更深布置的层而言，缩减遮挡数据中的数据规模已经展示出对质量仅有有限的影响，而同时减少了编码的3D信号内的位的数量。

本发明体现在一种用于编码的方法中，但同样体现在一种具有用于执行所述方法的各个步骤的装置的相应的编码器中。这样的装置可以在硬件或软件或硬件和软件的任意组合或共享件中提供。

本发明还体现在由所述编码方法产生的信号中并且体现在解码这样的信号的任意解码方法和解码器中。

特别地，本发明还体现在一种用于解码编码的视频信号的方法中，其中解码3D视频信号，该3D视频信号包括编码的主要视频数据层、用于主要视频数据层的深度图和包括源自不同的原始其他数据层的多个段的一个或多个公共数据层、以及包括指定在公共数据层中所述段的起源的附加数据的附加数据流，其中所述原始的其他层基于公共数据层和附加的数据流而被重构并且生成3D图像。

本发明还体现在一种包括用于解码编码的视频信号的解码器的系统中，其中解码3D视频信号，该3D视频信号包括编码的主要视频数据层、用于主要视频数据层的深度图和包括源自不同的原始附加其他数据层的段的一个或多个公共数据层、以及包括指定在公共数据层中所述段的起源的附加数据的附加数据流，其中该解码器包括用于读取主要视频数据层、所述用于主要视频数据层的深度图、所述一个或多个公共数据层和所述附加的数据流的读取器，和用于基于公共数据层和附加的数据流重构原始的其他层的重构器。

本发明还体现在用于这种系统的解码器中。

在本发明的框架中，数据段的起源是这些数据段所源自的数据层和该数据层内的位置。在数据段在另一个时隙被移动到公共层的情况下，所述起源也可以指示数据层的类型以及时隙。

本发明的这些和其他方面将通过实例并参照附图而被更详细地阐释。

附图说明

图1示出自动立体显示设备的实例；

图2和3示出遮挡问题；

图4示出计算机生成的场景的左视图和右视图；

图5示出图4在四个数据图中的表示；主要视图、用于主要视图和两个其他层的深度图、遮挡数据和用于遮挡数据的深度数据；

图6-9示出本发明的基本原理；

图10示出本发明的一个实施例；

图11示出本发明的另一个实施例；

图12提供用于本发明的一个实施例的方框图；

图13和14示出根据本发明的编码器和解码器；

图15示出本发明的一个方面；

图16示出本发明的一个实施例，其中主要层的数据段被移动到公共层。

这些附图不是按比例绘制的。一般地，在这些附图中用相同的附图标记表示相同的组件。

具体实施方式

图1示出一种类型的自动立体显示设备的基本原理。该显示设备包括用于形成两个立体图像5和6的透镜状屏幕3。两个立体图像的垂线（在空间中）交替地显示在例如具有背光1的空间光调制器2（例如LCD）上。所述背光和空间光调制器一起形成像素阵列。透镜状屏幕3的透镜结构将所述立体图像导向观看者的适当眼睛。在该实例中，示出了两个图像。本发明不限于两个视图的情形；实际上，要被再现的视图越多，则要被编码的信息越多并且本发明越有用。然而，为了容易阐明，在图1中描绘了两个视图的情形。应当注意，本发明的重要优点在于，多个（类型的）层也允许更宽的侧视图容量和/或较大的深度范围显示，因为它允许更高效的解码和存储宽的视锥（viewing cones）。

在图2和3中，示出了遮挡问题。在该图中，用背景指示的线是背景，而用前景指示的线代表位于背景前面的对象。左和右代表该场景的两个视图。这两个视图可以例如是用于立体设置的左视图和右视图或用于使用n-视图显示情况下的两个最外面的视图。L+R表示的线可通过两个视图被观察到，而L部分仅可以从左视图观察到，而R部分仅仅可以从右视图观察到。因此，R部分不能从左视图观看到，并且类似地L部分不能从右视图观看到。在图3中，中心指示主要视图。如可以从该图中看到，图3中所指示的背景的L和R部分的一部分（分别为L1和R1）可以从主要视图看到。然而，L和R部分的一部分是从主要视图看不见的，因为它被隐藏在前景对象后面。用Oc指示的这些区域是对主要视图而言被遮挡的但可从左视图和右视图看见的区域。如可以从该图中看到，遮挡区域典型地出现在前景对象的边缘处。当仅使用2D+深度图像时，3D图像的某些部分不能被重构。仅从主要视图和深度图生成3D数据对遮挡的区域而言会产生问题。隐藏在前景对象后面的图像的部分的数据是未知的。可以通过在主要视图中加入隐藏在其他对象后面的对象的信息来获得3D图像的更好再现。可能有许多隐藏在彼此之后的对象，所以最好将所述信息分层。对于每个层，最好不仅提供图像数据而且提供深度数据。在对象是透明的和/或反射性的情况下，关于这些光学量的数据也应当被分层。实际上，为了甚至更真实再现，此外也可以提供关于侧视图的对象的各种层的信息。而且，在3D再现的视图数量和精确度将被提高的情况下，也可以编码比中心视图更多的视图，例如左视图和右视图，或甚至更多的视图。

更好的深度图将在高深度和大角度3D显示器上实现显示。深度复制（reproduction）的增加将由于缺乏遮挡数据而造成围绕深度不连续性的可见缺陷。因此，为了高质量的深度图和高深度显示，发明人已经认识到需要精确的且附加的数据。应当注意，在本发明的框架内“深度图”被广义地解释为由提供关于深度的信息的数据构成。这可以是深度信息（z值）或与深度类似的差异信息的形式。深度和差异可以容易地彼此转换。在本发明中，这样的信息无论以哪一种形式呈现都被表示为“深度图”。

图4示出计算机生成的场景的左视图和右视图。移动电话漂浮在具有黄色瓷砖地面和两个墙壁的虚拟房间中。在左视图中，一个女人是清楚地可见的，而她在右视图中是不可见的。相反地在右视图中有棕色奶牛。

在图5中，我们具有与如上文相对于图4所讨论的场景相同的场景。根据本发明，该场景现在通过四个数据图表示，

- 具有用于主要视图的图像数据的图（5a），

- 用于主要视图的深度图（5b），

- 用于主要视图的遮挡图的图像数据（5c），即隐藏在前景对象后面的图像的部分，以及

- 用于遮挡数据的深度数据（5d）。

起作用的遮挡数据的范围是由主要视图深度图和预期的3D显示类型的深度范围/3D椎体确定的。基本上，它遵循主要视图中深度的步长线（line of step）。遮挡数据中所包括的区域（颜色（5a）和深度（5d））在该实例中由遵循移动电话的轮廓的带形成。这些带（其因此确定遮挡区域的范围）可以以各种方式确定为：

- 根据最大范围的视图和深度中的步长得出的宽度

- 标准的宽度

- 待设置的宽度

- 移动电话的轮廓的邻域（外面和/或内部）中的任何东西。在本发明的框架内，在实例中，存在两个其他层，由5c表示的层、图像数据和5d表示的深度图。

图5a示出用于主要视图的图像数据，图5b示出了用于主要视图的深度数据。

深度图5b是稠密图。在深度图中，明亮的部分表示靠近的对象，而较暗的部分表示离观看者更远的对象。

在图5所示的本发明的实例内，所示起作用的其他数据被限于具有如下宽度的带，该宽度对应于在给定深度图和向左和右的最大移置时我们将注意到的数据。层5c和5d中数据的剩余部分（即所述带外面的空区域）是不起作用的。

大部分数字视频编码标准支持可以处于视频水平或系统水平的附加的数据信道。利用这些可获得的信道，其他数据的传输可以是简单的。

图5e示出本发明的简单实施例：

其他层5c和5d的数据被组合到单个公共其他层5e中。层5d的数据被插入到层5c中并且被水平移位位移Δx。取代两个其他数据层5c和5d，仅需要其他数据的一个公共层5e，加上附加的数据流，来自5d的数据的数据流包括位移Δx、识别要被移位的段的段信息和原始层（即层5d）的起源（其指示它是深度数据）。在解码器侧，该信息实现了所有四个数据图的重构，尽管仅有三个数据图被传送。

本领域技术人员将清楚的是，移置信息的上述编码仅仅是示范性的，可以使用例如源位置和移置、目标位置和移置或类似的源和目标位置来编码数据。尽管这里示出的实例需要指示所述段的形状的段描述符，但是段描述符是可选的。考虑例如其中段对应于宏块的实施例。在这样一个实施例中，它足以基于宏块识别所述移置和/或源和目的地之一。

在图5中，呈现了两个其他层5c和5d，它们被组合到公共层5e中，然而，该图5是相对简单的图。

在更复杂的图像中，例如当多个部分隐藏在本身被隐藏在前景对象之后的多个部分之后时，呈现若干个遮挡层和它们各自的深度图。

图6示出一种场景。该场景由森林、森林前面的房子和房子前面的树构成。相应的深度图被省略：这些被类似地处理。根据遮挡，这产生包括房子后面的森林的遮挡层（I）和包含树之后的房子的遮挡层（II）；这两个遮挡层处于共同定位的位置，所以不能直接被组合到单个层中。

然而，如图6的底部中所示，通过将包含在树后的房子的部分的宏块向右移动距离Δx（并且将所述逆（reverse）作为偏移存储在它们的元数据中），遮挡数据层I和II的两个数据段在位置方面不再重叠并且可以通过将它们移动到所述公共数据层而将其组合到公共遮挡层CB（I+II）中。考虑一种场景：其中在宏块水平上提供移置。

在图6的简单情况下，仅有2个偏移（对于房子后面的森林的0偏移；和仅仅对于树后面的房子的水平偏移），所以如果我们制作这些偏移的表，则元数据恰好是每宏块一个偏移。当然，如果偏移为零，则所述数据可以省略，假设在解码器侧知道：没有重定位数据意味着偏移为零。通过使用针对树后面的房子的单个水平偏移，维持垂直相干性（coherency）（如果这是跨帧（例如在GOP内）完成的，则可能为时间相干性），这可以帮助使用标准视频编解码器进行压缩。

应当注意，如果需要更多的空间，则房子后面的遮挡数据的底部将是要省略的良好候选，因为它可以从周围环境得到预测。森林树木需要被编码，因为它们不能被预测。在该实例中，所述深度关心这两个层的排序，在更复杂的情形中，指定层的附加信息可被添加到元数据。

通过类似的方式，可以将这两个遮挡层的两个深度图组合到单个公共背景深度图层中，

更进一步地，可以将这四个附加层（即两个遮挡层和它们的深度图）组合到单个公共层中。

在所述两个遮挡层的公共层中，仍然存在如图6所示的开放区域。在图6的这些空区域中，可以定位这两个遮挡层的深度数据。

图7-9示出了更复杂的情形。在图7中，多个对象A到E被放置在彼此之后。第一遮挡层给出了被前景对象遮挡的（如通过中心视图看到的）所有数据的数据，并且第二遮挡层用于被第一遮挡对象遮挡的那些对象。在真实生活的场景中，两个到三个遮挡层是常见的。可以容易地看到，在点X，实际上呈现了背景数据的四个层。

单个遮挡层将不包括用于其它遮挡层的数据。

图8进一步示出本发明；第一遮挡层占据了由所有阴影区域给出的区域。除了描绘被前景对象遮挡的对象的有用块之外，该层还包括没有有用信息的区域、白色区域。第二遮挡层位于第一遮挡层之后，并且尺寸更小。取代指定单独的数据层，本发明允许在公共遮挡层内重新定位第二遮挡层的宏块（或更一般的数据）。这在图9中由两个区域IIA和IIB示意性指示。提供了元数据以给出关于原始位置与重新定位的位置之间的关系的信息。在图9中，这是由箭头示意性指示的。通过重新定位区域III针对第三层遮挡数据执行相同的操作并且通过重新定位区域IV针对第四遮挡层执行相同的操作。特别地，在该复杂实施例中，除了关于关系的数据之外，所述数据优选地还包括关于遮挡层的数量的数据。如果仅有一个附加的遮挡层，或根据其他数据（比如z数据，参见图6）排序是清楚的，则这种信息可能不是必需的。通过在公共遮挡层中重新定位更深的遮挡层的（例如且优选地用于宏块的）数据段并且制造跟踪所述重新定位且优选地跟踪源遮挡层的附加数据流，可以在单个公共遮挡层中存储更多的信息。所生成的元数据使得跟踪各种移动的数据段的起源成为可能，从而允许在解码器侧重构原始层内容。

图10进一步示出本发明的一个实施例。包括第一层FR（即主要帧）和多层表示B1、B2、B3的许多遮挡层的许多层根据本发明被组合。层B1、B2、B3被组合成公共层CB（组合的图像背景信息）。指示如何移动各个段的信息被存储在数据流M中。所述组合的层现在可以跨越显示接口（dvi、hdmi等）被发送到如3D显示器之类的3D设备。在显示器内，使用M的信息将原始层再次重构以用于多视图再现。

应当注意，在图10的实例中，示出了背景层B1、B2、B3等。可以将深度图B1D、B2D、B3D等等关联到每个背景层。还可以关联透明数据B1T、B2T、B3T等等。如上文所解释，这些组层中的每一组在实施例中被组合到一个或多个公共层中。可替代地，各种组的层可被组合到一个或多个公共层中。图像和深度层也可以被组合到第一类型的公共层中，同时诸如透明度和反射率之类的其他数据层可以被组合到第二类型的层中。

应当注意，多视图再现设备不必针对所有层完全重构图像平面，而是可以可能地存储所述组合层，并且仅仅重构包含可以在组合层中找到实际的视频数据的地方的指示器的原始层的宏块水平图。在编码期间为了该目的，可以生成和/或可以提供元数据M。

图11示出本发明的另一个实施例。

多层表示的许多层根据本发明被组合。

现在可以使用标准视频编码器将所述组合层压缩为更小的视频流（或者如果这些层被平铺则压缩为较低分辨率的视频流），同时元数据M作为单独的（无损压缩的）流而被添加。所得的视频文件可以被发送到标准的视频解码器，只要它也输出元数据，可以根据本发明重构原始层以使得它们可用于例如视频播放器或用于进一步编辑。应当注意，该系统和来自图10的系统可被组合以保持（keep）所述组合层并且在重构原始层之前通过显示接口发送它们。

在本发明的框架内，数据层是数据的任何集合，其中所述数据包括关于平面坐标的针对平面或所述平面的一部分的点和/或区域的图像信息数据，所述平面坐标定义了平面或平面中或平面的一部分中的点或与平面坐标关联、配对和/或针对平面坐标存储或生成。图像信息数据可以是例如但不限于，颜色坐标（例如RGB或YUV）、z值（深度）、透明度、反射率、标度等。

图12示出将若干其他数据层（例如遮挡层）的块组合到公共数据层中同时生成元数据的编码器的实施例的流程图。所述解码器进行逆操作，从而使用元数据将图像/深度数据拷贝到适当层中的适当位置。

在所述编码器中，可以根据优先权处理各块。例如，在遮挡数据的情况下，涉及离前景对象的边缘很远的区域的数据将很少被看到，所以可以给这样的数据比靠近边缘的数据更低的优先权。其他优先权标准可以例如是块的锐度。将各个块优先权化具有以下优点：如果必须省略块，则将省略最小相关的那些块。

在步骤121中，结果被初始化为“全空”。在步骤122中，检查是否任何未处理的非空块在输入层中。如果没有，得到结果，如果有，则在步骤123中挑选一个块。这优选地基于优先权来进行。在公共遮挡层中找到空块（步骤124）。步骤124也可以先于步骤123。如果不存在空块则得到结果；如果存在空块，则在步骤125中将来自输入块的图像/深度数据拷贝到结果块，并且关于重新定位和优选地层数量的数据在元数据中被管理（步骤126），重复该过程直到得到结果为止。

在稍微更复杂的方案中，在发现结果层中没有留下空块的情况下，可以加入额外步骤以创建附加空间。如果结果层包括相似内容的许多块，或可以从周围环境预测的块，则这样的块可以省略以便为附加的块让出空间。例如，图6中房子后面的遮挡数据的底部将是要省略的良好候选，因为它可以从周围环境预测。

图13和14示出本发明的实施例的编码器和解码器。所述编码器具有用于其他层的输入，其他层例如遮挡层B1-Bn。在该实例中，在创建器CR中这些遮挡层的块被组合到两个公共遮挡层和两个数据流（其可以被组合到单个附加流中）中。在图13中，由编码器将主要帧数据、用于主要帧的深度图、公共遮挡层数据和元数据组合到视频流VS中。图14中的解码器进行逆操作并具有重构器RC。

应当注意，可以将元数据放在单独的数据流中，但是附加的数据流也可以被放在所述视频数据本身中（特别是如果该视频数据未被压缩，比如当通过显示接口传输时）。通常，图像包括从未显示的若干线。

如果元数据尺寸较小，例如当只有少量Δx、Δy值时，其中Δx、Δy标识用于大量宏块的通用位移（general shift），则所述信息可以存储在这些线中。在实施例中，公共层中的一些块可以被保留以用于该数据，例如线上的第一宏块包含用于线的第一部分的元数据，描述用于接下来n个宏块的元数据（n依赖于可以放进单个宏块的元数据的量）。随后，宏块n+1包含用于所述接下来n个宏块的元数据等等。

简言之，本发明可被描述为：

在一种用于编码的方法和用于3D视频信号的编码器中，对主要帧、用于主要帧的深度图和其他数据层进行编码。通过将各种不同层的数据段移动到公共层中并跟踪该移动来将若干其他数据层组合到一个或多个公共层中。所述解码器进行逆操作并且使用公共层和关于如何将数据段移动到该公共层的信息（即这些数据段来自于哪一层和它们在原始层内的原始位置是什么）来重构分层的结构。

本发明还体现在用于根据本发明的方法或设备的任何计算机程序产品中。计算机程序产品应当被理解为：使得通用或专用处理器在一系列使命令进入处理器的加载步骤（其可以包括中间转换步骤，如转换为中间语言和最终处理器语言）之后能够执行本发明的任何特性功能的命令的集合的任何物理实现。特别地，该计算机程序产品可以实现为诸如盘或磁带之类的载体上的数据、存储器中存在的数据、通过有线或无线网络连接传播的数据或纸面上的程序代码。除了程序代码之外，程序所需的特性数据也可以体现为计算机程序产品。

所述方法运行所需的一些步骤可以已经存在于处理器的功能中而不是在计算机程序产品中描述，这些步骤比如数据输入和输出步骤。

应当理解，上文提及的实施例说明而非限制本发明，且本领域技术人员将能够设计许多可替代的实施例，而不脱离所附权利要求的范围。

例如，所给出的实例是这样的实例：其中使用中心视图和包括关于位于前景对象之后的对象的数据的遮挡层。在本发明的框架内，遮挡层也可以是侧视图到主要视图中的数据。

图15在该图的顶部示出了主要视图；在该图的底部示出了侧视图。侧视图将包括主要视图的所有数据，除了在主要视图中被电话遮挡的小区域视频数据。向左的侧视图SVL将包括也包括在主要视图中的、由灰色区域指示的数据和在主要视图中被遮挡的小数据带，其以灰色色调示出。同样主要视图的右视图将具有与主要视图公用（以灰色示出）的数据和在主要视图中被遮挡的小数据带（但不同于左视图）。更左边的视图将包括更宽的遮挡数据带。然而，至少一部分遮挡数据已经包括在左视图中。与图10-14中所示的相同的方案可以用于将各种视图的遮挡数据组合到组合的遮挡数据层。由此，可以减少层的数量（即多视图帧的数量）。在多视图方案中，主要视图可以是多个视图中的任意一个。

简言之，本发明可被描述为：

在一种用于编码的方法和一种用于3D视频信号的编码器中，对主要数据层、用于主要数据层的深度图和其他数据层编码。通过将诸如来自起点的数据层的数据块之类的数据段移动到公共数据层中并在附加的数据流中保存该位移的记录来将若干个数据层组合到一个或多个公共数据层中。

在权利要求中，括号之间移动的任何附图标记不应当被解释为限制该权利要求。

词语“包括”不排除权利要求中未列出的其他元件或步骤的存在。本发明可以借助包括若干不同元件的硬件并借助适当编程的计算机实现。在列出若干装置的设备权利要求中，这些装置中的若干个可以通过同一项硬件来体现。根据本发明的编码或解码方法可以在适当的通用计算机或可替代地在专用构建（集成）电路上实现和执行。在可替代的计算平台上的实现方式被设想到。本发明可以通过如上所述的各种不同的优选实施例的特征的任意组合来实现。

本发明可以通过各种方式实现。例如，在上文的实例中，主要视频数据层未被触及，而是仅仅将其他数据层的数据段组合到公共数据层。

在本发明的框架内，公共层也可以包括主要数据层的数据段和其他数据层的段。一个实例是以下情形：其中主要数据层包括天空的大部分。主要视频数据层的这样的部分通常可以容易地由描述蓝色部分的范围和颜色（和可能地例如颜色的变化）的参数表示。这将在主要视频数据层上创建源自其他数据层的数据段可以被移入其中的空间。这可允许减少公共层的数量。图16示出这样的实施例。主要层FR和第一其他层（这里被表示为B1）被组合到公共层C（FR+B1）中并且生成元数据M1以跟踪两个层FR和B1的数据段如何被移动到公共层。其他数据层B2到Bn被组合到公共数据层B2中，生成用于该公共数据层B2的元数据M2。

关于向后兼容的优选实施例是其中公共层仅包括其他层（B1、B1T等）的段的实施例。

不改变主要层并且优选地不改变用于主要层的深度图允许在现有设备上易于实现所述方法。

Claims

1.一种用于编码3D视频信号的方法，其中输入的3D视频信号被编码，该输入的3D视频信号包括主要视频数据层（FR）、用于主要视频数据层的深度图并且包括用于主要视频数据层的其他数据层（B1，B2，B1T，B2T），其中属于主要视频数据层、用于主要视频层的深度图和其他数据层的不同数据层的数据图的数据段被移动到公共数据层（CB1，CB2，C（FR+B1））的数据图，其中生成附加的数据流，其包括指定每个移动的数据段的原始位置和/或原始的其他层的附加数据（M，M1，M2），并且所述数据图大小相同。

2.如权利要求1所述的方法，其中所述数据段是宏块。

3.如权利要求1或2所述的方法，其中所述其他层包括来自与主要视频数据层的视图相同的视点的图像和/或深度数据和/或其他数据。

4.如权利要求1所述的方法，其中仅仅将其他数据层（B1，B2，B1T，B2T）的数据段移动到公共数据层（CB1，CB2）。

5.如权利要求1所述的方法，其中所述公共数据层包括仅仅一种类型的数据段。

6.如权利要求1所述的方法，其中公共数据层包括不同类型的数据段。

7.如权利要求1所述的方法，其中所述用于主要视频层的深度图和其他数据层的数据段在与主要视频数据层相同的时隙处被移动到公共层。

8.如权利要求1所述的方法，其中所述用于主要视频层的深度图和其他数据层的数据段在与主要视频数据层不同的时隙处被移动到公共层并且所述附加的数据指定时隙差。

9.如权利要求1所述的方法，其中所述数据段基于优先权被移动或丢弃。

10.一种包括用于编码3D视频信号的编码器的系统，所述编码的3D视频信号包括主要视频数据层（FR）、用于主要视频数据层的深度图和用于主要视频数据层的其他数据层（B1，B2，B1T，B2T），其中所述编码器包括用于其他数据层的输入，所述编码器包括创建器（CR），其通过将主要视频数据层、用于主要视频数据层的深度图和其他数据层中的超过一个数据层的数据段移动到公共数据层（CB1，CB2，C（FR+B））的数据图并且生成附加的数据流（M，M1，M2）而将来自所述超过一个数据层的数据图的数据段组合到公共数据层的数据图中，该附加的数据流包括标识移动的数据段的起点的数据，其中所述数据图大小相同。

11.一种用于解码编码的视频信号的方法，其中3D视频信号被解码，该3D视频信号包括编码的公共数据层（CB1，CB1，C（FR+B1））的数据图，该编码的公共数据层包括源自主要视频数据层、用于主要视频数据层的深度图和用于主要视频层的其他数据层中的两个或更多数据层的数据图的数据段并且该3D视频信号包括附加的数据流（M，M1，M2），该附加的数据流包括指定编码的公共数据层的数据图中所述段的起点的附加数据，其中主要视频数据层、用于主要视频数据层的深度图和用于主要视频层的其他数据层中的所述两个或更多数据层是基于所述编码的公共数据层（CB1，CB2，C（Fr+B1））的数据图和附加的数据流（M，M1，M2）而重构的并且3D图像被生成，其中所述数据图大小相同。

12.一种包括用于解码编码的视频信号的解码器的系统，其中3D视频信号被解码，该3D视频信号包括编码的公共数据层（CB1，CB1，C（FR+B1））的数据图，该编码的公共数据层包括源自编码的主要视频数据层、用于主要视频数据层的深度图和一个或多个其他数据层中的两个或更多数据层的数据图的数据段，所述3D视频信号进一步包括附加的数据流（M，M1，M2），该附加的数据流包括指定所述编码的公共数据层的数据图中所述段的起点的附加数据，其中所述解码器包括用于读取所述编码的公共数据层的数据图和附加的数据流的读取器和用于基于所述编码的公共数据层的数据图和附加的数据流重构原始主要视频数据层、用于主要视频数据层的深度图和一个或多个其他数据层的重构器（RC），其中所述数据图大小相同。

13.用于如权利要求12的系统的解码器。

14.用于如权利要求10的系统的编码器。