CN102246529B

CN102246529B - 基于图像的3d视频格式

Info

Publication number: CN102246529B
Application number: CN200980150424.3A
Authority: CN
Inventors: P-A.雷德特; R.B.M.克莱因古内韦克; B.W.D.索尼维尔特; C.瓦雷坎普
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-15
Filing date: 2009-12-10
Publication date: 2014-11-26
Anticipated expiration: 2029-12-10
Also published as: JP2012512554A; EP2377325A1; WO2010070545A1; EP2377325B1; US8767046B2; EP2197217A1; KR101651442B1; KR20110106367A; JP5734867B2; US20110242279A1; CN102246529A

Abstract

本发明涉及用于编码三维视频数据的方法和设备(580)，该设备包括:第一编码器(505)，被安排来编码来自不同视点的景象的多个同时的视图(501)；第二编码器(510)，被安排来编码该景象的深度信息；和第三编码器(515)，被安排来编码表示在该多个视图与该深度信息之间的关系的附加信息；以及组合器(520)，被安排来把已编码的信息组合成该三维视频数据的代表(513)。附加信息包括组分类符，它指示深度信息和多个视图的至少一个视图是否对应于相同的源材料，以便在对应时使用该深度信息和该多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图。本发明还涉及用于译码三维视频数据的方法和设备(585)，以及包括用于执行按照本发明的方法的程序指令的计算机程序产品。

Description

基于图像的3D视频格式

技术领域

本发明涉及用于编码三维视频数据的设备和方法，用于译码三维视频数据的设备和方法，以及涉及包括三维视频数据的信号。

背景技术

近二十年来，已经开发了各种立体和自动立体显示系统。这些系统旨在向观众提供静止和/或运动视频图像的三维(3D)印象。通常，(自动)立体设备旨在向观看者的左眼和右眼分别提供适当的左图像和右图像，这些图像当被观看者的人类视觉系统解译时产生3D印象。

立体显示系统包括基于有源眼镜的系统，诸如使用快门眼镜的那些系统。在基于快门眼镜的系统中，显示设备通常以时分复用的方式显示左图像和右图像。快门眼镜进而又以与显示系统同步的方式被操作，以允许左图像和右图像分别达到观看者的对应的眼睛。其它基于眼镜的系统是无源的，诸如在3D电影院中使用的极化眼镜。

虽然以上的立体系统提供了通常被承认是令人信服的3D体验的东西，但用户往往发现需要专门的眼镜是件麻烦事。结果，开发了自动立体系统，其中在显示设备上同时呈现两个或更多个视图。另外，这样的显示系统配备有光导向装置，诸如挡板或双凸透镜，它们将各个视图引导到不同的观看方向。例如，美国专利6064424给出了基于双凸透镜的自动立体显示系统的例子。

当观看者注视自动立体显示设备时，他通常将接收两个不同的视图；一个视图给他的左眼，一个视图给他的右眼。这些图像进而又被人类视觉系统组合成3D印象。

为了让立体和自动立体设备提供高质量3D印象，正常的是提供包括一个以上的常规2D图像的视频信号。已公开了各种各样的替换例。立体显示设备通常需要让内容以包括左图像和右图像的形式按时间顺序和/或复用的方式被递送。

另一方面，自动立体显示器通常需要两个以上的视图。为此，某些显示设备要求多个视图是采用时间顺序和/或复用的方式。国际专利申请WO2006/137000提供了编码三维视频数据的另一种方法的例子。交换图像数据的这个特定方法允许交换常规的2D图像、对应的深度图像(表示在观看方向上像素的距离)和遮挡信息。这样的信息可被用来通过使用诸如在J.Shade等人的“Layered Depth Images”,ACM SIGGRAPH’98, 第231-242页中所公开的技术而呈现图像的一个或多个视图。

发明内容

虽然对于三维视频数据的交换存在许多不同的格式，但各个格式的特征通常被调整成适合一种类型的显示设备。

本发明的目的是便利于三维视频数据的递送。

这个目的是通过编码三维视频数据的方法而解决的，所述方法包括：编码来自不同视点（viewpoint）的某景象的多个视图；编码该景象的深度信息；和编码表示在该多个视图与该深度信息之间的关系的附加信息；以及把编码的信息组合成三维视频数据的代表，该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以便在对应时使用该深度信息和该多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图。

借助于附加信息，本发明简化了当要呈现另外的视图(即，在编码的数据中不存在的附加视图)时，对于处理设备或呈现设备的三维视频数据的使用方式的确定。通过这样做，本发明有效地允许创建更通用的三维数据格式。按照本发明的方法提出对来自不同视点的某景象的至少两个视图连同该景象的深度信息进行编码。通过包括经由组分类符而将视图信息与深度信息相链接的附加信息，得到比常规的多视图或图像加深度代表更通用的三维视频数据的代表。事实上，三维视频数据的这个特定的代表可被用作为对于更大数量的显示器的输入，以及基于附加信息，可以附加地简化和/或改进图像呈现。

本发明提出在附加信息中提供组分类符，指示在三维视频数据的代表中在立体或多视图图像与深度信息之间是否有链接。因此，当不存在这样的链接时，接收三维视频数据的这样的代表的处理设备可以使用这个信息来通过混合两个源而阻止质量的降级。而且，当存在链接时，附加信息可以使得在另外的视图的呈现期间能够使用视图信息和深度信息。

在实施例中，组分类符包括表示深度信息是否对应于在多个视图的至少两个视图中存在的差异（disparity）信息的信息。这样的信息在决定当提供多个编码的视图时是否合成用于在自动立体显示器上显示的附加视图时可以是有用的。替换地，深度信息，例如当连同立体信号一起被提供时，可被使用于将字幕（subtitle）插入到立体图像。假如深度图是视图信息的代表，则深度图可以在字幕插入或在屏显示(OSD)生成期间被使用，因为它提供附加信息以用于确定景象内可以显示字幕信息的位置。

当深度信息对应于在多个视图的至少两个视图中存在的差异信息时，还可以提供深度信息到差异信息的实际的变换。令这样的信息可用还可以有助于字幕插入。

在另外的实施例中，附加信息包括视图分类符，其指示在深度信息的视点与多个视图的至少一个视图的视点之间的关系。这个视图分类符可被使用来对已编码的多视图图像和使用图像加深度信息来呈现的视图进行组合。当提供内容，其包括可以使用合成的视图来予以补充的视图信息时，后者是特别有价值的。

在另外的实施例中，附加信息包括针对多个视图中每个视图和深度信息的组分类符值，相等的组分类符值指示在深度信息的视点与相应视图之间的对应性。这个信息，特别是当与指示视图中的差异是否对应于深度信息的信息相组合时，可被使用来选择是否呈现特定的视图以代替编码的视图信息。

在另外的实施例中，附加信息包括信息，表示用于在仅仅二维的显示设备上呈现三维视频信号的优选视图。

在另外的实施例中，附加信息编码表示对于该多个视图和该深度信息中一个或多个空间区域在该多个视图与该深度信息之间关系的信息。通过提供用于一个或多个空间区域而不是整个视图的附加信息，或者通过提供用于一个或多个空间区域的附加信息作为对整个视图的补充，本发明可以一个个地，即以更精细的粒度处理所述区域。

附加信息可被提供为与图像的空间区域相关联的标签。这样的空间区域可以是加标签的图段（segment），在这种情形下，也需要图段描述。替换地，标签可以与已知的图像单元相关联，诸如在下面的压缩方案的单元；例如，宏(块)。

更精细的粒度代表当与部分图像或部分深度图组合地使用时可能特别有用。部分图像和/或部分深度图的使用可以使得对于编码的三维视频数据的带宽要求能够进一步减小。

另外，本发明的目的是通过译码三维视频数据的方法而解决的，该方法包括：从三维视频数据的代表中提取附加信息，附加信息表示在来自不同视点的景象的多个视图与景象的深度信息之间的关系，该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息；以及当组分类符指示对应性时，通过使用该深度信息和该多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图，而根据附加信息呈现三维视频数据。

另外，本发明的目的是通过用于编码三维视频数据的设备而解决的，该设备包括：第一编码器，被安排来编码来自不同视点的景象的多个视图；第二编码器，被安排来编码景象的深度信息；和第三编码器，被安排来编码表示在多个视图与深度信息之间的关系的附加信息；以及组合器，被安排来把编码的信息组合成三维视频数据的代表，该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以便在对应时使用深度信息和多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图。

另外，本发明的目的是通过用于译码三维视频数据的设备而解决的，该设备包括：提取器，被安排来从三维视频数据的代表中提取附加信息，附加信息表示在来自不同视点的景象的多个视图与景象的深度信息之间的关系，该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息；以及呈现装置，被安排来当组分类符指示对应性时，通过使用深度信息和多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图，而根据附加信息呈现三维视频数据。

另外，本发明的目的是通过一种三维视频信号而解决的，所述信号包括：编码的、来自不同视点的某景象的多个视图；和编码的、景象的深度信息；以及编码的、表示在多个图像与深度信息之间的关系的附加信息，该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以便在对应时使用深度信息和多个视图的所述至少一个视图来呈现来自另外的不同视点的所述景象的另外的视图。存储设备，例如记录载体，可包括三维视频信号。

附图说明

将参照附图，仅仅是以举例方式，来描述本发明的实施例，其中：

图1显示定义差异的几个一般概念和参数，

图2显示在差异与深度之间的关系，

图3显示提供包括5个视图的观看圆锥的自动立体显示设备，

图4显示按照本发明的编码三维视频数据的方法，

图5显示按照本发明的译码三维视频数据的方法，

图6显示按照本发明的用于编码三维视频数据的设备，和用于译码三维视频数据的设备。

具体实施方式

从现有技术中已知三维视频信号，其包括两个或更多个图像或视图。图像或视图对应于同一个景象的从不同观看方向观察的图像或视图。典型地，这样的视图被同时呈现在显示设备上。然而，它们也可以以复用的方式被呈现，以使得人的眼睛感觉到这些图像基本上是同时的。

在时分复用的内容呈现的情形下，诸如举例而言，当使用快门眼镜时，这通常是指以交替的方式以足够高的速度交织左图像和右图像。

典型地，三维视频信号因此编码至少两个视图，以用于在单个时刻（time instance）呈现，或用于在预定的时隙内呈现，该时隙被感知为是同时的。当最终得到的被呈现的图像被路由到观看者的适当的眼睛时，它们随后提供3D印象。

使用立体图像编码立体内容是熟知的。然而，立体图像，或更一般地说多视图图像的使用有一个很大的缺点：各个图像锁定（lock-in）差异关系。结果，尤其是当显示器仅仅能够呈现相对较窄的差异范围时，这可能在呈现为具有更宽差异范围的显示设备编码的内容时引起问题。

虽然有可能处理多视图图像，以使得内容差异匹配于特定的显示器，但这通常牵涉到附加处理。

替换的解决方案是以所谓的图像加深度格式来编码三维视频数据。这个格式允许根据例如景象的正面图像和对应的深度信息来呈现附加视图。这样的信息还可被扩展成包括例如遮挡数据。遮挡数据是当在正面图像中呈现的景象从不同于编码的正面图像的观看方向被观看时变为可见的图像信息(或深度信息)。遮挡数据可仅仅包括视图信息(例如，RGB或YUV)，但同样也可以包括附加的遮挡深度信息。

以上格式的缺点在于，为了能够感知令人满意的3D体验，需要呈现各视图。然而，这样做的优点在于，将显示设备的差异范围纳入考虑也变为可能。另外，诸如字幕、菜单和/或其它OSD信息那样的另外的信息也可以在相同的处理过程中被呈现。

关系差异和深度

图1图示了定义差异的几个一般概念和参数。图1显示位于双箭头E的边缘处的、互相间隔开眼距E的两个视点。在观看距离Z处，放置用虚线表示的屏幕S，该屏幕被使用来显示三维信息。这样的屏幕实际上可以是例如时间顺序或频谱顺序显示器，它交替地向佩戴适当眼镜（eye-wear）的观看者的眼睛提供针对相应视点的适当的图像信息。

图1上的屏幕S以零差异被放置。处在对应于零差异的深度的平面物体在左图像和右图像中将位于正好相同的位置；因此是零差异。双箭头W W指示屏幕的宽度。N(近)代表在屏幕S前面的最大感知的深度。同样地，F(远)代表在屏幕S后面的最大感知的深度。

线d_N代表位于屏幕S前面N处的物体的感知的差异，在这里差异值d_N是负的，它也被称为交叉型差异，并可被表示为：

d_N=N*E/(Z-N) [1]。

线d_F代表位于屏幕S后面F处的物体的感知的差异，在这里差异值d_F是正的，它也被称为非交叉型差异，并可被表示为：

d_F=F*E/(Z+F) [2]

实际上，最大的差异应当低于眼距E，以便允许舒服地观看。实际上，最大差异优选地被设置为低于平均眼距E的值，以虑及人与人之间眼距的变化。

图1图示了相关于差异的深度的关系；例如，对于位于位置F或N的物体。正如可以在方程式1和2中看到的，差异反比于深度。

图2还阐述在立体图像内的差异与深度的关系，并且还把这个与深度相关。一对立体图像的差异典型地相对于参考被确定。典型地，这个参考是图像之一。

图2显示一对立体图像和深度图。典型地，视图信息将包括多个图像，诸如这里呈现的左图像和右图像，图2还显示包括对应的深度信息的图像。在本例中，所有的图像以相同的分辨率呈现。然而，左图像和/或右图像和/或深度图之一具有较低的分辨率也并不少见，由此减小了三维视频数据的所需要的覆盖区（footprint）。为了清晰起见，这里，所有的图像和深度图像将被认为具有相等的尺寸。

接着，通过使用图2的左图像和右图像，进一步举例说明在深度与差异之间的关系。这里，左图像将被用作为用于确定差异的参考图像。

图像L代表用于左眼的图像，包括两个平面物体：暗方形110和亮圆形105。亮圆形部分地遮挡暗方形，这表明它被安置于暗方形的前面。图像R代表用于右眼的图像，包括相同的平面物体：暗方形110’和亮圆形105’。

在左图像和右图像中，暗方形110、110’位于相同的位置。这暗示这个物体位于所谓的零差异平面。白色圆形105、105’被安置在黑色方形的前面。结果，在右眼图像中的白色圆形看起来向左移动n个像素。

图2上的图像D代表对于相应图像的基于差异的对应的深度图。在这个深度图上的深度被编码，使得色调越亮，则左图像的那个部分越靠近观看者。圆形105”是最亮的，且是最靠近观看者的。部分被遮挡的方形11”处在零差异，它被映射成灰色色调。背景进而又被编码为黑色。

关系视图信息与深度信息

本发明的发明人认识到，对于三维视频数据的典型编码格式集中在多视图或图像加深度数据的编码。然而，更通用的三维视频数据代表可以通过以下方式而得到，即：将深度信息添加到多视图信号而且添加表示各个视图信息如何与深度信息相关联的附加信息。

虽然后者并不是必需的，但它在译码和呈现三维视频数据时确实提供了有用的信息。

下面给出和讨论附加信息的一系列例子。在所述例子中，通过使用组分类符和视图分类符而对附加信息进行编码。然而，应当指出，这个特定的编码方式是优选的，但不应当被解释为是仅有的可能的编码。

此后使用的组分类符指示视图图像或深度图像是否涉及到相同的差异/深度源材料。在这方面，使用多视图照相机记录的各图像被认为代表所涉及的源材料，因而接收相同的组分类符。同样地，基于从一立体对（a stereo pair）得出的差异的深度图像也将接收相同的组分类符。然而，手工制作的深度图，诸如根据用户分类被构建的，不接收相同的组分类符。

此后使用的视图分类符表示图像的观看方向。例如，当编码一立体对时，视图分类符典型地是0和1，由此表示右视点被偏移特定的(水平的)角度。然而，也可以相对于另外的中心视图来表示它们，于是它们被分别表示为-¹/₂和+¹/₂。同样地，用于五视图显示器的视图可被分类为具有视图分类符0、1、2、3和4，或替换地为-2、-1、0、1和2。

图3提供5视图自动立体显示器的顶部视图的示意性代表，举例说明由自动立体显示器呈现的观看圆锥。5个视图201、202、203、204和205中的每个视图是在特定的观看方向内可见的。每个视图在方向上偏移特定的角度。另外，对于这些视图中每个视图的视图分类符在图像上被指示为范围从V=-2到V=+2。

表1：立体加深度。

表1提供用于表明在包括立体和深度信息的三维视频数据中视图与深度信息的关系的附加信息项的例子。表1上的组分类符指示：所有的深度信息和差异信息对应于相同的源材料。表1上的视图分类符指示：这个信号中的深度信息是与I₀相关联的。结果，I₀可与深度信息D₀相结合被用作为图像信息，以便例如当信号在5视图自动立体显示器上被呈现时，呈现另外的视图。

而且，在各个视图的编码期间，和/或当编码深度信息时，也可以使用这个信息的知识。

本领域技术人员将明白，在5视图自动立体显示器的情形下，如果其中的两个视图分别对应于I₀和I₁，则优选地使用这些视图，而不呈现附加的视图。

以上的信息也可以被有利地使用于立体显示器，特别是当呈现字幕或在屏显示(OSD)信息时。在这种情形下，深度信息提供关于在三维观看空间中是否有空位容纳这样的字幕或OSD信息的信息。

由组分类符指示的对应性可以以严格的方式被使用；即，指示深度反比于差异。然而，典型地，深度值将被映射到深度范围，诸如在0-255范围中的值。在这种情形下，深度值仍旧保留反比关系，但实际上通过一个因子被缩放。这个因子进而又可以也被编码。

组分类符也可以以更自由的方式被使用，因为在创建深度图的处理过程中，以这样的方式，即使得深度信息不保留与差异的反比关系，而变换深度/差异也并不少见。最简单的例子是例如其中实际的深度被限幅的情形。替换地，景象中的所有信息可以稍微移到背后，以便创建用于插入字幕的净空（headroom）。另外，可以应用非线性变换，它在“压紧（compact）”深度图时利用例如人类视觉系统的特征。在应用这样的变换的情况下，附加地存储描述变换和/或逆变换的信息可以是有利的。

表2：立体加手制的深度。

表2指示用于表明在包括立体加手制深度信息的三维视频数据中视图信息的关系的附加信息项的另外的例子。

表2上的组分类符指示：信号包括差异/深度信息的两个非对应的源。事实上，在三维视频数据中的深度信息D₀可以是基于完全不同的差异/深度信息。然而，视图分类符指示：D₀的视图对应于I₀的视图，这进而又指示：I₀可以连同D₀一起被使用来呈现新的视图。

当具有以上域的三维视频数据的代表在立体的基于快门眼镜的显示器上被呈现时，则优选地在呈现过程中使用图像I₀和I₁。然而，当这样的内容在5视图自动立体显示器上被呈现时，则优选地仍旧不使用I₁，而是根据I₀和D₀来呈现所有的视图。在由人类视觉系统解译时，基于不同的深度/差异信息的I₁可能将冲突的深度线索提供给被合成的/被呈现的图像中的那些图像。

表3：立体加半途（half-way）深度。

表3提供用于表明在包括立体加手制深度信息的三维视频数据中视图信息的关系的附加信息项的另外的例子。在这个例子中，分别为I₀和I₁图像来编码立体视图，但深度信息D₀是对于来自这样的观看角度的图像而被编码的，即：该观看角度在左视图和右视图的各自观看角度之间居中。由于左图像和右图像相对于中心图像被相等地移位的事实，单个深度图足以根据I₀和I₁图像中的任一图像和D₀合成图像。

表4：立体加基于差异和手制的深度。

表4提供附加信息项的例子，其表明在包括立体加基于差异和手制深度信息的深度信息的三维视频数据中视图信息的关系。

虽然这里提供了非常规的两个深度图，但D₀和D₁是与I₀的视图相关联的，且这二者使得能合成另外的视图。通过提供两个完全深度图，或通过提供一个完全深度图和一个局部深度图，可以提供附加深度信息。

深度信息D₁例如可以涉及到3D效果。这个深度信息随后可以被使用来根据I₀合成图像，以便在显示器上显现。然而，因为深度信息D₁不是与I₀相同的组的组成部分，所以这样合成的图像可以提供与I₀和I₁对中所存在的不同的深度信息。

代替于使用在上文给出的两个深度图D₀和D₁，有可能使用包括对于单个视图的所有深度值的单个深度图，并且连同二元掩模(binary mask)一起使用这单个深度图来指示所述深度/差异是否对应于在I₀与I₁中的深度/差异。

如上所指示的二元掩模允许按逐个像素地(或替换地，按更大的尺度，例如在宏块级别上)标记特定的区域是否属于相同的组和/或视图。

可以在指示区域与组/视图之间的关联的其它代表中表示相同的信息。例如，代替于使用位图，相同的信息可以通过使用加标签的图像图段和/或通过使用在下面的压缩方案中使用的加标签的单元——诸如(宏)块——而被表示。这样，可以提供更精细的粒度代表。

当与局部图像或局部深度图相组合地被使用时，更精细的粒度代表可以是特别有用的。局部图像和/或局部深度图的使用可以允许进一步减小对于编码的三维视频数据的带宽要求。而且，诸如OSD或字幕那样的应用典型地只需要局部图像。

按以上的方式，可以提供如下的附加信息，其把图像的各部分与特定的视图或组分类符或另外的分类符相关联。通过提供对于图像的空间区域的这样的信息，本发明可以以低于图像水平的粒度来使用。

由于在编码三维视频信号时典型地存在附加信息，所以所述信息可以帮助压缩，因为它使得压缩器能够例如确定D₀是否可以被使用来例如，通过基于D₀和I₀预测I₁而改进I₁的数据压缩。

表5：多视图加多深度。

表5提供表明在包括多视图信息和多深度图的三维视频数据中视图信息的关系的附加信息项的另外例子。

正如由组分类符指示的，深度/差异信息对应。所以，深度信息可被使用来呈现交替的图像。另外，两组深度信息被编码，其中I₁和D₀对相同的视图编码，以及I₂和D₁对相同的视图编码。另外，附加信息可以提供如下的信息，其指示哪些视图优选地通过使用相应的深度信息--这里在括号中予以指示--而被呈现。

正如已指出的，表示在多个图像与深度信息之间的关系的附加信息不限于以上给出的类型和格式。

例如，在本发明的特别简单的实施例中，其中三维视频数据包括供左和右立体视图中至少一个视图使用的编码的立体信号和深度信息，该附加信息可以是指示深度信息是否基于在立体对的左和右视图之间的图像差异的单个比特。

这单个比特还可以通过例如采用另一个比特的形式的另外的附加信息而被补充，该另外的附加信息指示深度信息是否以预定的方式对应于图像中的差异。同样地，再一个比特可以指示立体对中的哪个视图被用作为参考图像以用于确定差异。这个比特也被使用于指示优选地使用哪个视图来呈现视频信号的二维代表。

虽然此处以上主要描述视图信息和深度信息，但可以加上更多的信息，其例如将遮挡信息(当存在时)与特定的视图相关。

图4提供编码三维视频数据的方法的框图。该方法包括编码305来自不同视点的某景象的多个视图的步骤。实际上，这样的编码可以包括--但不一定必须包括--压缩。典型地，编码的结果是编码的视图信息，它可能服从于特定的编码格式。该方法还包括编码310景象的深度信息。深度信息可以部分地从各个视图的差异信息得出，但可以替换地是基于另外的输入，诸如举例而言，测距仪，或(半)人工深度图生成。该方法还包括编码315表示在多个图像与深度信息之间的关系的附加信息的步骤。

这里要指出，在特别有利的实施例中，这个附加信息也可以在编码视图信息和/或深度信息时被使用。实际上，尤其是当执行压缩时，也有可能利用深度信息来以有利的方式帮助压缩。

附加信息可包括在上文描述的信息。如在框图上所示的，该方法的各种步骤可以并行地执行，或在数据依赖性的情形下，例如当使用由图4上的虚线指示的所生成的附加信息时，可以顺序地或按流水线地执行。

该方法还包括其中编码的信息被组合成三维视频数据的代表的步骤。这个代表例如可以是电子信号，用于例如通过使用点对点链路、或借助于广播通过网络而传送到另外的设备。替换地，这个代表可以是在文件系统中的文件，用于存储或在计算机之间交换图像或视频文件。

三维视频数据的代表可被存储在存储设备(例如，下面描述的存储设备525)上。具体地，三维视频信号可以被存储在被耦合到类似互联网的网络的服务器，被存储在存储系统以便由广播器分发，通过记录设备被存储在存储介质上，或经由用于制造记录载体--类似DVD或蓝光(Blu-ray)盘--的创作和/或生产系统被存储在多个媒体上。附加信息可以被包括在三维视频信号中和/或在存储过程的各种阶段存储到存储介质上。记录载体的生产过程还可包括以下步骤：在轨道上提供体现包括附加信息的3D视频信号的标记的物理图案；以及对记录载体的材料成形，以便在至少一个存储层上提供标记的轨道。

图5显示译码三维视频数据的方法的框图。这里给出的方法包括从三维视频数据的代表提取405附加信息的步骤。附加信息指示在来自不同视点的某景象的多个视图与该景象的深度信息之间的关系。该方法还包括根据附加信息和多个视图的至少一个视图以及深度信息来呈现410三维视频数据的步骤。

该译码的方法优选地牵涉到使用多个视图与深度信息的呈现。按照本发明提供的附加信息在呈现左图像和右图像时也可以是有用的。例如，当译码三维视频数据以用于在基于快门眼镜的立体显示设备上呈现时，深度信息可被使用来确定在三维景象中插入OSD信息的最佳位置。

然而，在其它应用中，附加信息可以被有利地使用来根据视图和深度信息而确定是否呈现所述代表中所提供的多个视图，或(任选地)呈现附加视图。

图6显示包括按照本发明的用于编码三维视频数据的设备580以及用于呈现三维视频数据的设备585的框图。

用于编码三维视频数据的设备580包括：第一编码器505，被安排来编码来自不同视点的某景象的多个视图501；第二编码器510，被安排来编码景象的深度信息；和第三编码器515，被安排来编码表示在多个图像与深度信息之间的关系的附加信息。还应指出，任选地，第三编码器可以输出用于在如上所述的第一和/或第二编码器中使用的信息511。

在这个特定的图上显示的实施例中，第二编码器510接收除多个视图501以外的输入数据503。这个输入例如可以是来自手工深度图生成过程的结果，替换地，这个输入可以是由外部深度图生成设备使用多个视图501而生成的输入。

第一、第二和第三编码器505、510和515的各自的输出505、507和509随后被组合器520组合成三维视频数据的代表513。在组合器生成三维视频数据的文件代表的情况下，组合器可以在计算机的中央处理单元(CPU)上被实施。替换地，如果所述代表是电子信号，则组合器还可以包括数字到模拟转换器和例如线路驱动器电路。

所述代表513可被存储在存储设备525上，或替换地，可以通过网络530被传送到另外的设备。所述另外的设备可以是例如用于译码三维视频数据的设备585。设备585包括提取器535，被安排来从三维视频数据的代表513中提取表示在来自不同视点的某景象的多个视图与景象的深度信息之间的关系的附加信息。提取器可以例如在计算机的CPU上、或替换地在计算机的另外的处理单元上被实施。在所述代表513是采用特定文件格式的文件的情况下，提取器例如可包括解复用器或分析器，用于从所述代表513提取相关的域或流。

设备585还包括呈现装置540，被安排来根据附加信息和多个视图的至少一个视图以及深度信息来呈现三维视频数据。呈现装置可包括例如软件呈现堆栈，它根据图像与深度信息来呈现多个视图，以用于在自动立体显示设备上显示。

应意识到，为了清晰起见，以上的说明参照不同的功能单元和处理器来描述本发明的实施例。然而，应意识到，可以在不背离本发明的情况下，使用在不同的功能单元或处理器之间的任何适当的功能性分布。例如，被图示为由分开的处理器或控制器执行的功能性可以由相同的处理器或控制器执行。因此，对于特定的功能单元的提及仅仅要被看作为是对提供上述功能性的适当装置的提及，而不是表示严格的逻辑或物理结构或组织。

本发明可以以任何适当的形式被实施，包括硬件、软件、固件或这些的任何组合。可选地，本发明可以至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的单元和部件可以以任何适当的方式物理地、功能地和逻辑地被实施。事实上，所述功能性可以在单个单元中、在多个单元中、或作为其它功能单元的一部分被实施。这样，本发明可以在单个单元中被实施，或者可以物理地和功能地分布在不同的单元和处理器之间。

虽然本发明是结合一些实施例被描述的，但不打算将它限制于这里阐述的特定的形式。而是，本发明的范围仅仅由所附权利要求限制。另外，虽然特征可能看起来是结合特定的实施例描述的，但本领域技术人员将会认识到，所描述的实施例的各种特征可以按照本发明被组合。在权利要求中，术语“包括”并不排除其它单元或步骤的存在。

此外，虽然被一个个地列出，但多个装置、单元或方法步骤可以由例如单个单元或处理器实施。另外，虽然一个个特征可被包括在不同的权利要求中，但这些特征有可能被有利地组合，以及被包括在不同的权利要求中并不意味着这些特征的组合是不可行的和/或是不利的。另外，特征被包括在一种类型的权利要求中并不意味着限制于这种类型，而是表明如果适当的话所述特征同样可应用于其它权利要求类型。此外，特征在权利要求中的次序并不意味着这些特征必须按此工作的任何特定的次序，具体地，在方法权利要求中的一个个步骤的次序并不意味着这些步骤必须按这个次序被执行。而是，这些步骤可以以任何适当的次序被执行。另外，单数的提及并不排除复数。因此，对“一”、“一个”、“第一”、“第二”等等的提及并不排除复数。在权利要求中的参考符号仅仅作为阐明性的例子而被提供，无论如何不应当被解释为限制权利要求的范围。

Claims

1.编码三维视频数据的方法，该方法包括：

- 编码(305)来自不同视点的景象的多个视图；

- 编码(310)该景象的深度信息；且

- 编码(315)表示在该多个视图与该深度信息之间的关系的附加信息；以及

- 把已编码的多个视图、已编码的深度信息以及已编码的附加信息组合(320)成该三维视频数据的代表，

该附加信息包括组分类符，它指示该深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以便在对应时使用该深度信息和该多个视图的该至少两个视图之一来呈现来自另外的不同视点的所述景象的另外的视图。

2.权利要求1的方法，其中组分类符包括指示该深度信息不对应于在该多个视图的至少两个视图中存在的差异信息的信息，所述指示是通过根据差异和手制深度信息来指示在包括立体加深度信息的三维视频数据中的视图信息的关系而进行的。

3.权利要求1的方法，其中附加信息指示该深度信息如何与该多个视图的至少两个视图有关。

4.权利要求1-3的任一项的方法，其中附加信息包括表示在该多个视图的至少两个视图中存在的差异信息与该深度信息之间的关系的变换信息。

5.权利要求1-3的任一项的方法，其中附加信息包括视图分类符，其指示在该深度信息的视点与该多个视图的至少一个视图的视点之间的关系。

6.权利要求1的方法，其中附加信息包括对于该多个视图的每一个和该深度信息的组分类符值，相等的组分类符值指示在深度信息的视点与各个视图之间的对应性。

7.权利要求1的方法，其中附加信息包括表示用于在二维显示器上呈现三维视频信号的优选视图的信息。

8.权利要求1-3的任一项的方法，其中附加信息编码表示对于该多个视图和该深度信息中的一个或多个空间区域在该多个视图与该深度信息之间关系的信息。

9.译码三维视频数据的方法，该方法包括：

- 从三维视频数据的代表(513)中提取(405)附加信息，所述三维视频数据的代表包括已编码的来自不同视点的景象的多个视图、已编码的该景象的深度信息以及已编码的附加信息，该附加信息表示在该多个视图与该深度信息之间的关系，该附加信息包括组分类符，它指示深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以及

- 当组分类符指示对应性时，通过使用该深度信息和该多个视图的该至少两个视图之一来呈现来自另外的不同视点的所述景象的另外的视图，而根据该附加信息呈现(410)该三维视频数据。

10.权利要求9的方法，其中组分类符包括指示该深度信息不对应于在该多个视图的至少两个视图中存在的差异信息的信息，该指示是通过根据差异和手制深度信息来指示在包括立体加深度信息的三维视频数据中的视图信息的关系而进行的。

11.用于编码三维视频数据的设备(580)，该设备包括:

- 第一编码器(505)，被安排来编码来自不同视点的景象的多个视图(501)；

- 第二编码器(510)，被安排来编码该景象的深度信息；和

- 第三编码器(515)，被安排来编码表示在该多个视图与该深度信息之间的关系的附加信息；以及

- 组合器(520)，被安排来把已编码的多个视图、已编码的深度信息以及已编码的附加信息组合成该三维视频数据的代表(513)，该附加信息包括组分类符，它指示该深度信息是否对应于在多个视图的至少两个视图中存在的差异信息，以便在对应时使用该深度信息和该多个视图的该至少两个视图之一来呈现来自另外的不同视点的所述景象的另外的视图。

12.用于译码三维视频数据的设备(585)，该设备包括：

- 提取器(535)，被安排来从该三维视频数据的代表(513)中提取附加信息，所述三维视频数据的代表包括已编码的来自不同视点的景象的多个视图、已编码的该景象的深度信息以及已编码的附加信息，该附加信息表示在该多个视图与该深度信息之间的关系，该附加信息包括组分类符，它指示深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以及

- 呈现装置(540)，被安排来当组分类符指示对应性时，通过使用该深度信息和该多个视图的该至少两个视图之一来呈现来自另外的不同视点的所述景象的另外的视图，而根据该附加信息呈现该三维视频数据。

13.用于传送三维视频数据(513)的方法，该方法包括传送三维视频信号给如权利要求12所要求的用于译码三维视频数据的设备，所述信号包括：

- 编码的来自不同视点的景象的多个视图；和

- 编码的该景象的深度信息；以及

- 编码的表示在该多个视图与该深度信息之间的关系的附加信息，该附加信息包括组分类符，它指示深度信息是否对应于在该多个视图的至少两个视图中存在的差异信息，以便在对应时使用该深度信息和多个视图的该至少两个视图之一来呈现来自另外的不同视点的所述景象的另外的视图。