CN104335579B

CN104335579B - 对供多视图立体显示设备所用的视频数据信号进行编码的方法

Info

Publication number: CN104335579B
Application number: CN201480001425.2A
Authority: CN
Inventors: W.H.A.布鲁尔斯; M.O.维德博尔; W.德哈安
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2013-02-06
Filing date: 2014-01-27
Publication date: 2017-11-14
Anticipated expiration: 2034-01-27
Also published as: WO2014122553A1; TW201440488A; RU2640357C2; EP2949121A1; BR112014027678A2; JP2016506137A; JP6231125B2; CN104335579A; US20150334369A1; TWI651960B; EP2949121B1; US9596446B2; RU2014150963A

Abstract

本发明涉及对供多视图立体显示设备所用的视频数据信号进行编码的方法、对视频数据信号进行解码的方法、视频数据信号、供多视图立体显示设备所用的视频数据信号的编码器、视频数据信号的解码器、包括用于对视频数据信号进行编码的指令的计算机程序产品和包括用于对视频数据信号进行解码的指令的计算机程序产品。编码方法涉及对供多视图立体显示设备所用的视频数据信号进行编码的方法，所述方法包括：提供如从输入视点看到的场景的第一图像，提供与第一图像相关联的深度图，提供指示供基于第一图像和深度图的视图呈现所用的中心视图的优选位置的偏好数据，所述中心视图的优选位置将输入视点与在参考左视图与参考右视图之间的基线相联系，并且生成包括代表第一图像、深度图和偏好数据的编码的数据的视频数据信号。

Description

对供多视图立体显示设备所用的视频数据信号进行编码的方法

技术领域

本发明涉及对供多视图立体显示设备所用的视频数据信号进行编码的方法、对视频数据信号进行解码的方法、视频数据信号、供多视图立体显示设备所用的视频数据信号的编码器、视频数据信号的解码器、包括用于对视频数据信号进行编码的指令的计算机程序产品和包括用于对视频数据信号进行解码的指令的计算机程序产品。

背景技术

在过去的二十年里，三维显示技术已经成熟。三维（3D）显示设备通过为观看者的每一只眼睛提供正在注视的场景的不同视图，将第三维（深度）加入到观看体验中。

因此，现在我们有观看三维图像/视频信号的各种方式。一方面，我们有基于眼镜的三维显示系统，其中针对用户的左眼和右眼向她/他展示不同的图像。另一方面，我们有自动立体三维显示系统，其为观看者无辅助的眼睛提供场景的三维视图。

在基于眼镜的系统中，有源/无源的眼镜提供过滤器，用于为观看者的相应眼睛分离出在屏幕上展示的不同图像。在没有眼镜的系统中或者在自动立体的系统中，设备常常是使用光指引装置的多视图显示器，光指引装置例如呈屏障（barrier）或者透镜的形式，以将左图像指引到左眼并将右图像指引到右眼。

为了提供与立体多视图显示设备一同使用的内容，随着时间的流逝，已经设计了各种输入格式。这样的格式的示例可以在公开的PCT申请WO2006/137000(A1)中找到。该文档公开了用于图像和与诸如深度和/或遮挡（occlusion）深度这样的另外信息组合的深度信息的图像交换格式。以这种方式提供的信息可以被用来呈现图像以便与基于透镜或者屏障技术的自动立体多视图显示器一同使用。

P. A. Redert, E. A. Hendriks和J. Biemond的文章"Synthesis of multiviewpoint images at non-intermediate positions"，于Proceedings ofInternational Conference on Acoustics, Speech, and Signal Processing, 第IV卷,ISBN 0-8186-7919-0, 第2749-2752页, IEEE Computer Society, Los Alamitos,California, 1997公开了提取深度信息的方法和基于输入图像和深度图呈现多视图图像的方法。

为了改进前述的基于图像的呈现技术的结果，已经设计了利用如WO2006/137000(A1)中公开的附加遮挡纹理和遮挡深度的各种技术。然而，附加遮挡纹理和遮挡深度图是相对昂贵的，因为它可能需要附加图像和深度图的传输以供呈现所用。

除了以另外的图像和深度图的形式加入附加的图像数据之外，还众所周知的是，可以提供附加的元数据，以便改进基于图像的呈现的质量。这样的元数据的示例在PCT申请WO2011/039679(A1)中提供。该文档公开了对视频数据信号编码的方法，提供了优选的呈现方向标识符以供呈现另外的视图所用。提供至少如从第一视点看到的场景的第一图像和呈现信息，以使得能生成如从呈现视点看到的该场景的至少一个呈现的图像。在视频数据信号中，优选的方向指示符定义了呈现视点相对于该第一视点的优选取向。所述指示符可以进一步指示新视点相对于第一视点的优选的或者最大的距离。

EP1617683描述了3D图像信号和3D显示装置。所述图像信号具有要被用作立体视图的、不同视点的多个二维图像的数据。此外，所述信号具有作为附属信息的、被分派给二维图像的每个数据的视点编号信息和作为用于选择一个或者多个二维图像的信息的视点编号信息。

发明目的

本发明人已经观察到，仅仅对呈现方向标识符进行编码可以被进一步改进，特别是当考虑到用于立体多视图显示器的、基于图像和深度的内容的呈现时。

发明内容

按照本发明的第一方面，提供了一种对供多视图立体显示设备所用的视频数据信号（50）进行编码的方法，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述方法包括提供如从输入视点看到的场景的第一图像，所述输入视点与参考左视图与参考右视图之间的基线有关，提供与第一图像相关联的深度图，提供偏好数据，所述偏好数据包括指示符，所述指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，以及生成包括代表第一图像、深度图和偏好数据的编码的数据的视频数据信号，以使所述设备能够呈现所述视图，其特征在于，所述呈现包括与视锥中该中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的中心视图为中心，所述中心视图指向与显示屏幕垂直的角度，并且所述方法包括：为了提供所述指示符，而提供指示所述中心视图的优选位置的指示符，所述优选位置与所述基线有关。

提供了一种对供多视图立体显示设备所用的视频数据信号进行解码的方法，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述视频数据信号包括编码的数据，所述编码的数据代表：如从输入视点看到的场景的第一图像，所述输入视点与参考左视图与参考右视图之间的基线有关，与该第一图像相关联的深度图，偏好数据，其包括指示符，该指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，所述方法包括：获得视频数据信号，基于第一图像和深度图及偏好数据从显示屏幕呈现多个视图，其特征在于，所述获得视频数据信号包括获得被编码在视频数据信号中的中心视图的优选位置，并且所述呈现包括与视锥中该中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的中心视图为中心，所述中心视图指向与显示屏幕垂直的角度。

提供了一种用于对供多视图立体显示设备所用的视频数据信号进行编码的编码器，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述编码器包括：第一获取单元，用于提供如从输入视点看到的场景的第一图像，所述输入视点与参考左视图与参考右视图之间的基线有关，第二获取单元，用于提供与第一图像相关联的深度图，第三获取单元，用于提供偏好数据，所述偏好数据包括指示符，所述指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，以及生成器，被安排用于生成包括代表第一图像、深度图和偏好数据的编码的数据的视频数据信号，以使所述设备能够呈现所述视图，其特征在于，所述呈现包括与视锥中该中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的中心视图为中心，所述中心视图指向与显示屏幕垂直的角度，并且所述第三获取单元被安排为：为了提供所述指示符，而提供指示所述中心视图的优选位置的指示符，所述优选位置与所述基线有关。

提供了一种用于对供多视图立体显示设备所用的视频数据信号进行解码的解码器，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述视频数据信号包括编码的数据，所述编码的数据代表：如从输入视点看到的场景的第一图像，所述输入视点与参考左视图与参考右视图之间的基线有关，与该第一图像相关联的深度图，偏好数据，其包括指示符，该指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，所述解码器包括：解复用器，用于对第一图像数据、深度图和偏好数据解复用，以及，视图呈现器，被安排用于基于第一图像和深度图及偏好数据呈现所述多个视图，其特征在于，所述对视频数据信号的解复用包括获得被编码在视频数据信号中的中心视图的优选位置，并且所述呈现包括与视锥中该中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的中心视图为中心，所述中心视图指向与显示屏幕垂直的角度。

以这种方式对视频数据信号进行编码的优点在于：其允许打算使用内容来为多视图显示器呈现视图的解码器为相对应的视锥（viewing cone）选定合适的中心视图。因此，可能的是，以不依赖于目标显示器的方式，选定用于显示设备的视锥的、感知上合意的（即优选的）中心位置。

在本申请中，对中心视图作出参考。多视图立体显示设备被安排用于具有多个视图的视锥的视图呈现，中心视图是在所述视锥的中心位置。要留意的是，存在具有奇数个视图的多视图立体显示器，也存在具有偶数个视图的多视图立体显示器。在多视图立体显示器的情况下，中心视图对应于视锥中的居中的视图，即该视图典型地与显示面板垂直。在偶数个视图的情况下，中心视图对应于两个与视锥的中心最接近的视图之间的居中位置。

可选择地，偏好数据包括指示符，其指示供在多视图立体显示器上呈现图像以便显示所用的中心视图位置的优选位置。

可选择地，偏好数据包括依赖于输入视点与基线的关系的偏好数据，对于仅具有组成输入视点的单个视图的视频信号而言，在参考左视图和参考右视图代表与该单个视图有关的预期左视图位置和预期右视图位置的情况下，偏好数据包括作为指示与该单个视图有关的优选位置的所述指示符而提供的单个视图中心偏移量值。偏好数据可以进一步包括单个视图中心偏移量标记，当提供单个视图中心偏移量值时，所述单个视图中心偏移量标记被置位。

可选择地，偏好数据（30）包括依赖于输入视点与基线的关系的偏好数据，对于具有组成参考左视图和参考右视图的左视图和右视图的视频信号而言，该偏好数据包括：

-作为指示与左视图与右视图之间的中心位置有关的优选位置的所述指示符而提供的单个视图处理中心偏移量值。偏好数据可以进一步包括下列的至少一个：

-单个视图处理中心偏移量标记，其当提供单个视图处理中心偏移量值时被置位；

-单个视图优选标记，其当单个视图处理是优选的时被置位；

-优选视图指示符，其指示左视图是对单个视图处理而言的优选视图或者右视图是对单个视图处理而言的优选视图。

可选择地，偏好数据以基线的1/100的精确度指示在参考左视图与参考右视图之间与该基线有关的中心视图位置的优选位置，以这种方式，达到精确度与存储需求之间的折衷性。

可选择地，偏好数据通过与左参考视图与右参考视图之间的中心有关的偏移量值指示中心视图位置的优选位置，并且其中为零的偏移量值对应于输入视点。以这种方式，中心位置的代表可以是将所选择的输入与输入视点相联系的单一值，并且可以是供呈现所用的目标优选位置。

可选择地，基于在针对参考显示器、对于多个不同中心视图位置呈现内容之后对所感知的图像质量的评价，确定中心视图的优选位置。以这种方式，可以选择在感知上合意的中心位置，以使得例如由于解除遮挡（de-occlusion）造成的误差可以被减轻或者基本上减小，但也要留意可能的、其它创作的考虑。例如，考虑这样的场景，其中一个人身体的一侧站在白墙之前，而另一侧站在高度纹理化的窗帘之前。通过选择在特定方向呈现，由于窗帘的解除遮挡造成的遮挡伪像（artefact）可以减小。然而，如果场景中的人正朝窗外看，那么在那个方向中过远地扩展场景可能变得令人不快；因为窗户的有意义的感兴趣区域可能受影响。

按照此实施例的方法允许检测到这样的情景，并且允许选定可以在自动立体多视图显示器上恰当地呈现的折衷性。

可选择地，偏好数据针对下列中的一个被设定：每帧、帧的每组、或者每个镜头/场景。由于在某个场景内的中心视点中的改变可能是不必要的，所以有可能基于每帧、基于帧的每组或者基于镜头或者场景来设定偏好数据。在实践中，后者看来像是最不突兀的。而且，如果需要的话，对偏好数据的每帧编码将（直接地通过包含用于每帧的数据更新或者间接地例如通过指示用于多个后续帧的偏好数据增量组，或者通过为以后的某个帧设定目标值）允许偏好数据随着时间平滑过渡。

按照本发明的第二方面，提供对视频数据信号进行解码的方法，所述视频数据信号包括编码的数据，其代表：如从输入视点看到的场景的第一图像；与所述第一图像相关联的深度图；包括指示供视图呈现所用的中心视图的优选位置的指示符的偏好数据，所述中心视图的优选位置和该输入视点与参考左视图与参考右视图之间的基线有关，所述方法包括：获得视频数据信号，基于第一图像和深度图及偏好数据呈现多个视图，以使得呈现的视图与被编码在视频数据信号中的该中心视图的优选位置相一致或者在其周围。

在优选的实施例中，解码方法进一步牵涉到对呈现视图进行随后的编排（weave）以用来驱动目标立体多视图显示器。

按照本发明的第三方面，提供视频数据信号，所述视频数据信号包括编码的数据，其代表：如从输入视点看到的场景的第一图像；与所述第一图像相关联的深度图；包括指示供视图呈现所用的中心视图的优选位置的指示符的偏好数据，所述中心视图的优选位置和该输入视点与参考左视图与参考右视图之间的基线有关。

可选择地，偏好数据进一步包含多个视图的优选位置，将相应视图的优选位置与输入视点和参考左视图与参考右视图之间的基线相联系。

按照本发明的第四方面，提供用于以非瞬时形式包括视频数据信号的数据载体，其中数据载体可以不同于已知设备，已知设备是诸如光盘、硬盘驱动器、固态驱动器、或者固态存储器。

按照本发明的第五方面，提供用于对供多视图立体显示设备所用的视频数据信号进行编码的编码器，所述编码包括：用于提供如从输入视点看到的场景的第一图像的第一获取单元；用于提供与所述第一图像相关联的深度图的第二获取单元；用于提供偏好数据的第三获取单元，偏好数据包括指示供视图呈现所用的中心视图的优选位置的指示符，所述中心视图的优选位置和该输入视点与参考左视图与参考右视图之间的基线有关；以及被安排用于生成包括代表第一图像、深度图和偏好数据的编码数据的视频数据信号的生成器。

按照本发明的第六方面，提供用于对视频数据信号进行解码的解码器，所述视频数据信号包括编码的数据，其代表：如从输入视点看到的场景的第一图像；与所述第一图像相关联的深度图；包括指示供视图呈现所用的中心视图的优选位置的指示符的偏好数据，所述中心视图的优选位置和该输入视点与参考左视图与参考右视图之间的基线有关，所述解码器包括解复用器和视图呈现器，所述解复用器用于对第一图像数据、深度图和偏好数据解复用，所述视图呈现器被安排来基于第一图像和深度图及偏好数据呈现多个视图，以使得所呈现的视图与被编码在视频数据信号中的该中心视图的优选位置相一致或者在其周围。

可选择地，解码器进一步被安排来基于优选的中心位置和对呈现而言可用的视差量，呈现与多视图显示器一同使用的相互等距的视图。

可选择地，偏好数据进一步包含目标显示器的所有视图的优选位置，将相应的视图的优选位置与输入视点及参考左视图与参考右视图之间的基线相联系。

按照本发明的第七方面，提供计算机程序产品，其包括用于使处理器系统执行按照本发明的编码方法的指令。

按照本发明的第八方面，提供计算机程序产品，其包括用于使处理器系统执行按照本发明的解码方法的指令。

本发明的这些和其它方面将根据下文描述的实施例变得明显，并且将参考下文描述的实施例而阐明。

附图说明

在附图中：

图1A示出立体4视图的多视图显示器的简化的视锥的代表，

图1B示出立体5视图的多视图显示器的简化的视锥的代表，

图2示出按照本发明的编码器和解码器的框图，

图3示出偏好数据代表的示意性概况，

图4示出基于偏好数据的可能的呈现视图的示意性概况，

图5示出编码方法的流程图，

图6示出选定优选位置的优选方法的流程图的细节，

图7示出解码方法的流程图。

应该留意的是，在不同图中具有相同参考数字的项具有相同的结构特征和相同的功能，或者是相同的信号。在已经解释了这样的项的功能和/或结构的情况下，不必要在详细描述中对其进行重复解释。

具体实施方式

在转向本发明之前，我们首先介绍视锥的概念，因为其普遍存在于多视图自动立体显示器中。对于这样的多视图显示器的特定有利形式，参考US6801243 B1，其示出基于透镜的多视图自动立体显示器的示例。

图1A示出立体4视图的多视图显示器的简化的视锥表示，视锥26图示出观看者将看到的视图。当观看者坐在显示面板之前在显示面板中心处（未示出）时，观看者将通过他的左眼感知到视图-1，而通过他的右眼感知到视图1。通过提供恰当呈现的视图（即为左眼呈现一视图，为右眼呈现一视图），观看者21将感知到立体图像。然而，当观看者21沿着与显示平面平行的线向其右边朝如图1A中示出的位置移动时，那么观看者将感知到视图1和2。这暗示着视图1和2也需要代表立体图像对的视图。在如图1A示出的情况下，显示设备的视锥以视图-1与1之间的中间点为中心。即视图可以说是以“虚拟”视图0为中心，此处由于显示器没有示出这个视图，所以该视图可以说是虚拟的。

图1B示出立体5视图的多视图显示器的简化的视锥表示。观看者23正面向显示面板24，显示面板例如可以覆盖有倾斜的透镜箔或者可转换（switchable）的屏障，以便在5个不同的方向上指引原始来自于显示面板的5个视图，正如图1B中所示的。观看者23的右眼被定位为朝向显示面板在显示面板的中间，结果，视图0（其指向与显示屏幕垂直的角度）对于观看者23的右眼是可见的。类似地，视图-1对观看者23的左眼是可见的。在如图1B所示出的情况下，这些视图可以说是以位于视锥中心的视图0为中心的。

图2示出按照本发明的编码器200和解码器300的框图。在图左侧展示的编码器200准备视频数据信号50，所述视频数据信号50由发射器70进行后续传输。发射器70可以如上文中所提到的那样通过用于将视频数据信号50记录到数据载体上的记录设备来体现，或者替换地，可以准备视频数据信号，以通过有线介质73或者无线介质72或者两者的组合（未示出）进行传输。

所传输的数据由在右侧绘出的解码器300接收。解码器300接收视频数据信号，对内容解复用，并且将其使用于在呈现单元90上呈现视图。如图中所指示的，解码器可以具体化为设备105，其驱动外部的多视图立体显示器，或者解码器可以具体化为也包括多视图立体显示器的设备105'。

设备105的解码器功能性可以例如在机顶盒中实现，其中显示设备被使用本领域技术人员所熟知的例如HDMI、DVI或者DisplayPort样式的接口来进行驱动。可替换地，解码器功能性可以在膝上型计算机、平板计算机或者智能手机上实现，其通过无线HD或者WiGiG接口传输所呈现的和所交织的视频内容。

更详细而言，图2示出用于对与多视图立体显示设备100一同使用的视频数据信号50进行编码的编码器200，所述编码器包括用于获得如从输入视点看到的场景的第一图像10的第一获取单元15、用于获得与第一图像10相关联的深度图20的第二获取单元25、用于获得偏好数据30的第三获取单元35，该偏好数据指示供基于第一图像和深度图的视图呈现所用的中心视图的优选位置。中心视图的优选位置将输入视点与参考左视图与参考右视图之间的基线相联系。获取单元可以被安排来为编码器从存储装置中或者从网络中读取输入。

一旦获得，生成器60就被安排来生成视频数据信号50，其包括代表第一图像10、深度图20和偏好数据30的编码的数据。输入数据可以被编码在一个或者多个流中，所述流被随后复用到视频数据信号50中。

类似地，图2示出用于对视频数据信号50进行解码的解码器300，所述视频数据信号50是接收自有线网络73、无线网络72或者可能从数据载体71中读入。视频数据信号50包括编码的数据，其代表：如从输入视点看到的场景的第一图像10；与第一图像10相关联的深度图20；指示供基于第一图像和深度图的视图呈现所用的中心视图的优选位置的偏好数据30，所述中心视图的优选位置将输入视点与参考左视图与参考右视图之间的基线相联系。所示出的解码器包括用于将第一图像数据10、深度图20和偏好数据30解复用以便进一步处理的解复用器80。接下来，视图呈现器90被安排来基于第一图像10和深度图20及偏好数据30呈现多个视图，以使得所呈现的视图是与编码在视频数据信号50中的该中心视图的优选位置相一致地呈现或者在其周围呈现的。

这里要留意的是，当为有奇数个视图正被呈现的显示器呈现视图时，所呈现的中心视图将与由偏好数据30所指示的优选位置相一致，而其它视图将对称地位于中心视图的优选位置周围。类似地，当为有偶数个视图的显示器呈现视图时，所有的视图将对称地位于中心视图的优选位置周围，并且最接近优选位置的两个视图将对称地位于该优选位置的周围。

对视频中的偏好位置进行编码

在使用第一图像和相关联的深度图的当前视频数据信号编码系统中，实际的视频数据常常是基于AVC规范或者HEVC规范编码的。

在这样的系统中，深度信息经常由显示设备使用，显示设备尝试结合视频和适用的元数据来呈现视频数据信号，从而创建不可从（一个或多个）编码视频序列中直接获得的视图。深度可以存在于或者可以不存在于编码的数据流中。如果深度不存在于（一个或多个）编码的视频序列中，则深度图可以通过显示设备从视频中生成。

在深度存在的情况下，其必须以显示设备能够解码的形式进行编码。虽然本文提供的大多数示例示出由单视场（monoscopic）视频（1个视图）组成的视频，但是当视图中的仅一个视图被用于呈现所述视图时，本发明也可以与立体视频（2个视图）一同使用。在立体视频的情况下，可以为两个视图或者两个视图之一提供深度。

图像和深度信息可以以多种格式封装。一种这样的格式是如上文的WO2006/137000（A1）中介绍的格式。可替换地，数据可以以另一种帧兼容的2D视频和深度格式封装。

在帧兼容的2D视频和深度编码中，2D视频和相关联的深度图以几种可能的方式之一被包装成编码的视频帧。例如，在并行式（side-by-side）配置中，视频可以被水平地以系数（factor）2作二次抽样，并且被安置在图片的左半边，而相关的深度被编码在图片的右半边的光亮度中。这种方法的主要优点在于：标准化的AVC/HEVC传输信道对分发而言是可用的，并且AVC/HEVC解码器可以被用于解码。视频和深度可以被包含在单个AVC或者HEVC视频流中，以使得在解码器中，解码图片的每帧都含有2D视频和相关联的深度（Z）的缩放版本。预见到了诸如并行式和自上而下的这样的格式。

可替换地，深度信息的量可以通过进一步垂直和/或水平地缩放或者作二次抽样而进一步减小，从而产生更多的带宽。

深度图进而又可以例如使用8比特或者16比特值进行编码。在8比特的情况下，这将代表从0到255的范围，0和255也包括在内。当深度图被存储在图片的某个区域的一部分中时，深度值被存储在该图片的该区域中像素的亮度样本中，该区域被指定用于存储深度。

偏好数据30代表除图像和深度信息之外提供的元数据，用来改进呈现的质量。这样的元数据可以被包含在基于AVC或者HEVC的编码视频序列的SEI消息中。这样的元数据优选地被含在用户数据未注册的SEI消息中。这些元数据SEI消息被包含在含有深度的基本流中。取决于所选定的格式，这可以是具有视频和深度的单个基本流，或者是单独的深度基本流。

user_data_unregistered(payloadSize){	C	描述符
			…	5	u(8)
metadataSize=payloadSize-17
			if(metadata_type= =0)
depth_processing_information(metadataSize)
			else if(metadata_type= =1)
view_rendering_assist_information(metadataSize)
			else
for(i=0;i<metadataSize;i++)
			reserved_metadata_byte	5	b(8)
}

表1 元数据SEI消息容器语法。

元数据可以通过一个或者多个用户数据未注册的SEI消息被包含在编码的视频序列中，用户数据未注册的SEI消息是通过具有固定值的128比特标识符被唯一标识的。已经定义了元数据的几种类型。相同类型的元数据含在单个SEI消息中，对于其而言，类型由metadata_type字段指示。

多个元数据SEI消息可以与单个接入单元相关联，但是某个类型的至多一个元数据SEI消息可以与该接入单元相关联。

下文的表2示出depth_processing信息的示例性语法，如上文的表1中提到的。

depth_processing_information(metadataSize){	C	描述符
			…
depth_coding_format	5	u(4)
			dual_depth	5	u(1)
preferred_view	5	u(2)
			single_view_preferred	5	u(1)
…
			single_view_processing_center_offset_flag	5	u(1)
single_view_center_offset_flag	5	u(1)
			…
if(single_view_processing_center_offset_flag){
			i=i+1
single_view_processing_center_offset	5	i(8)
			}
if(single_view_center_offset_flag){
			i=i+1
single_view_center_offset	5	i(8)
			}
…
			}

表2 深度处理信息语法。

各种元素的进一步解释如下。

depth_coding_format：可以被用来指示：当多个depth_coding格式可用时，哪个特定的深度编码格式正在使用。

dual_depth：代表标记，该标记指示在立体内容的情况下，提供了一个还是两个深度图，值为1指示提供了两个深度图。值得留意的是，当仅有单个深度图可用时，本发明可以被用来基于与单个深度图相关联的视图，呈现附加的视图。

preferred_view：当preferred_view设定为1时，这指示左视图是用于由显示器进行单个视图处理的优选视图。该字段设定为2则指示右视图是用于由显示器进行单个视图处理的优选视图。

这个值对于被设计来从单个视图中生成各视图的显示设备而言特别有重大意义。对于能够使用多个视图来进行视图生成的显示设备而言，preferred_view指示当single_depth_preferred被设定为1时，用于视图呈现的最佳视图。

如果dual_depth为0，或者当不存在优选视图时，这个字段应该被设定为0。

single_view_preferred，当其被设定为1时，其指示由显示设备进行的单视图处理是优选的。如果dual_depth为0，则该字段应该被设定为0。

Single_view_processing_center_offset含有整数值，其为不利用双深度信息的多视图显示设备规定被呈现的中心视图的推荐位置。该字段可以仅当dual_depth设定为1时存在。当提供用于single_view_processing_center_offset的值时， single_view_processing_center_offset_flag被置位，如表2中的条件“if”函数所指示的。

中心偏移量参数含有从-128到127的范围（-128和127也包括在内）中的值，并且是以左和右视图之间的基线的1/100为单位，与左和右视图之间的精确中心位置（代表偏移量值等于0）有关。值随着从左到右的位置而增加；其中-50代表原始的左视图位置，而50代表原始的右视图位置。

single_view_center_offset含有为多视图显示设备规定被呈现的中心视图的推荐位置的整数值。该字段可以仅当dual_depth设定为0，或者当single_view_preferred设定为1时存在。当用于single_view_center_offset的值被提供时， single_view_center_offset_flag被置位，如表2中的条件“if”函数所指示的。

单个视图中心偏移量参数含有从-128到127的范围（-128和127也包括在内）中的值，并且是以预期的左与右视图之间的基线的1/100为单位，与所提供的视图（代表偏移值等于0）有关。值随着从左到右的位置而增加；其中-50代表预期的左视图位置，而50代表预期的右视图位置。

虽然本发明已经参考包括第一图像、深度图和偏好数据的视频数据信号进行了描述，但是这并不排除视频数据信号中其它数据的存在。例如，当呈现作为左图像和左深度图、右图像和右深度图而提供的内容时，本发明可以被用来发挥完全的效力。虽然经常可能的是，可以使用来自左和右的数据达到较好的呈现结果，但是情况也可能并不总是这样。

因此，即便在有立体数据可用并且有两个深度图的情况下，有可能的是，仅基于第一图像和相关联的深度图来呈现多个视图，而不使用右图像和右深度图。

现在将参考图3和4，更详细地讨论中心视图位置的编码。图3在图形上示出了使用8比特整数代表的single_view_processing_center_offset或者single_view_center_offset值的可能的整数编码。输入视点被映射成偏移量为0，而-50的偏移量对应于正常情况下左图像将被呈现处的视图。50的偏移量对应于正常情况下立体图像对的右视图将被呈现处的视图。

该编码背后的基本理念是：所有的多视图显示器将需要能够以可以呈现视差总量的方式呈现立体内容，即，在最左视图与最右视图之间的视差的差需要被用来以对观看者而言可接受的方式呈现视频内容。

因此，良好质量的自动立体显示设备将需要能够呈现立体内容，其中存在左视图和右视图。本发明的发明人已经认识到，该特性可以被用来根据立体内容的基线去定义偏移量。因此，单个定义可以用于范围广泛的多视图立体显示设备。在这样的情况下，可以选择该基线，以便与被用于拍摄立体内容的基线相匹配。

参考左视图和参考右视图

然而，当基于单个图像和相关联的深度进行呈现时，可能会引起相同的问题，即我们需要定义基线来用于允许中心位置的安置，以便改进视图的呈现。然而，在这种情况下，没有对于左图像和右图像的严格定义。

本发明人已经认识到，出于这个原因，可能有益的是，在基线上定义左参考视图和右参考视图，并且基于其来定义中心位置。虽然这确实解决了能够恰当地选定基线位置的问题，但是它也确实将问题转移到了对左和右参考视图的定义上。

本发明人已经认识到，可以使用不同的方法来这么做。这么做的第一种途径是基于显示设备自身的属性来定义基线。例如，基线可以被定义为对应于当针对中心视图来呈现基于图像＋深度的内容时由设备所使用的基本线（base line）。在具有偶数个视图的情况下，这对应于与两个最接近虚拟视锥中心的视图相对应的基线。以这种方式，-50的值将与视锥中最中心的视图对的左视图的中心位置相匹配。在这种情况下，参考左视图将与视锥中最中心的视图对的左视图相匹配。

可替换地，基线可以基于视锥的最左和最右视图而定义。在这样的情景中，-50将对应于视锥中最左的视图。

更可替换地，基线可以基于涉及视图在屏幕上的差异的元数据而定义，即，基于显示屏幕尺寸、优选的观看距离和观看者眼睛的距离。

还可替换地，如果显示器也支持立体内容，那么可能的是，选定左立体视图作为左参考视图，且选定右立体视图作为右参考视图。在呈现立体内容的多视图自动立体显示器中，在左与右之间的差异量典型地分配在多个视图上；即在视锥的两个视图之间的差异量显著地小于立体输入内容的差异量。

然而，可能的是，使用如由原始的立体左视图和右视图定义的基线来定义中心。

正如对本领域技术人员而言将清楚的是，许多不同的定义可能都基于相同的概念；定义左和右参考视图，并且将中心定义为这两个视图之间的基线的几分之一。

实际上，选择哪种特定类型的参考视图定义是可以被预先定义或者可以可替换地被编码为视频数据信号其自身中的元数据的。

再次参考图3，-50的偏移量暗示着显示器将呈现的所有视图将以这样的位置为中心，即：在该处，多视图立体显示设备将呈现立体图像对的左图像，没有偏移。类似地，50的偏移量暗示着显示器将呈现的所有视图将以这样的位置为中心，即：在该处，多视图立体显示设备将呈现立体图像对的右图像，没有偏移。

图4示出了15个视图510-550相对于立体图像对的左图像501和右图像502的位置的视图布置的一系列示例。输入视点（IV）503指示输入视点相对于视锥的中心视图的优选位置（PP）504的位置。

视图布置510对应于0的偏移量，其是优选位置504与输入视图503重叠的情况。类似地，视图布置520对应于-12的偏移量（大约12.5%）。视图布置530进而又对应于-25的偏移量，视图布置540对应于-37的偏移量（大约37.5%），而视图布置550对应于-50的偏移量；即中心视图与正常情况下观看对的左图像将被呈现的位置重叠的情况。

值得留意的是，如此处提出的偏移量规范也允许目标显示设备完全控制视锥中个别视图的布置。这是特别有利的，因为不同的多视图立体显示设备可以具有指派视图的不同方式。例如，图4示出了等距的视图定位，其中在相邻视图之间的视差保持相同，然而可替换地，可能的是，减小朝向视锥各侧的各视图之间的视差，以便影响人们向视差最高的该视锥的中心移动。

转向图5，图5示出了对与多视图立体显示设备100一同使用的视频数据信号50进行编码的方法的流程图，所述方法包括：提供如从输入视点看到的场景的第一图像10的步骤401，提供与第一图像10相关联的深度图20的第二步骤402，提供指示供基于第一图像和深度图的视图呈现所用的中心视图的优选位置的偏好数据30的步骤403，所述中心视图的优选位置将输入视点与在参考左视图与参考右视图之间的基线相联系，以及生成包括代表第一图像10、深度图20和偏好数据30的编码数据的视频数据信号50的步骤404。

如所指示的，所述方法可选择地进一步包括编排405呈现的视图以供驱动目标立体多视图显示器100所用。有关视图编排的更多信息可以在例如US6801243 B1中找到。

转向图6，图6示出了供建立中心视图的优选位置所用的流程图。为了获得偏好数据（30），可以遵循此处介绍的过程。在步骤enc3_0中，为了呈现，确定一组偏移量。接下来，在步骤enc3_1中，选定一个未评估的偏移量，随后，在步骤enc3_2中，使用该偏移量设置来针对第一图像和相关联的深度图而呈现视图。在步骤enc3_3中，所呈现的视图被编排和显示。接下来在步骤enc3_4中，所显示的视图被排序（rank），这或者是通过人类辅助的排序或者是通过基于机器的排序途径来进行，例如通过确定和评估针对靠近高度纹理化结构的解除遮挡的量的度量来进行。

接下来在步骤Q，评估是否所有的偏移量已经被排序，如果没有，则过程在步骤enc_0继续，否则，过程继续步骤enc3_5，其中选定最佳排序的偏移量，其被用来生成偏好数据30。

转向图7，图7示出对视频数据信号50进行解码的方法的流程图，所述视频数据信号50包括编码的数据，其代表：如从输入视点看到的场景的第一图像10、与第一图像10相关联的深度图20、指示供基于第一图像和深度图的视图呈现所用的中心视图的优选位置的偏好数据30。所述中心视图的优选位置将输入视点与在参考左视图与参考右视图之间的基线相联系。所述方法包括：获得视频数据信号50的步骤dec1，这可能是正从存储器、硬盘存储装置中读取视频数据信号，或者正从有线或者无线网络中接收数据。

接下来在步骤dec2中对视频数据信号进行解复用，借以提取如被包括在视频数据信号50中的个别成分，这例如通过对进入的视频流的容器格式进行解复用和/或通过对其中包括的基本流进行随后的解复用来达成。值得留意的是，这样的解复用步骤可能并不总是必须的，而是依赖于被解码的视频数据信号的输入格式。

在解码后，呈现的步骤dec3被施加，其中多个视图95基于第一图像10和深度图20及偏好数据30呈现，以使得所呈现的视图95与被编码在视频数据信号50中的中心视图的优选位置相一致地或者在其周围呈现。

如对本领域技术人员而言将会清楚的，深度与差异大致成反比，然而在显示设备中，深度到差异的实际映射受制于各种设计选择，诸如可能由显示器生成的差异总量、将特定深度值分配到零差异的选择、允许的交叉差异量等等。然而，与输入数据一同提供的深度数据被用来以深度相关的方式使图像偏斜（warp）。因此，此处的差异数据被定性地解释为深度数据。

将意识到的是，本发明也扩展到适合于将本发明付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本发明的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的构架设计。例如，实现按照本发明的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令（例如，Java解释器指令）。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地（例如在运行时间）链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者设备。例如，载体可以包含存储介质，诸如ROM（例如CD ROM或者半导体ROM）或者磁记录介质（例如软盘或者硬盘）。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者其它设备或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本发明，而不是限制本发明，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的元件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的设备权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

Claims

1.一种对供多视图立体显示设备（100）所用的视频数据信号（50）进行编码的方法，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，

所述方法包括：

-提供（401）如从输入视点看到的场景的第一图像（10），所述输入视点与参考左视图与参考右视图之间的基线有关，

-提供（402）与第一图像（10）相关联的深度图（20），

-提供（403）偏好数据（30），所述偏好数据（30）包括指示符，所述指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，以及

-生成（404）包括代表第一图像（10）、深度图（20）和偏好数据（30）的编码的数据的视频数据信号（50），以使所述设备能够呈现所述视图，其特征在于，

所述呈现包括与视锥中中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的该中心视图为中心，所述中心视图指向与显示屏幕垂直的角度，并且

所述方法包括：为了提供所述指示符，而提供指示所述中心视图的优选位置的指示符，所述优选位置与所述基线有关。

2.如权利要求1中所要求的编码的方法，其中所述偏好数据（30）包括依赖于输入视点与基线的关系的偏好数据，对于仅具有组成该输入视点的单个视图的视频信号而言，在参考左视图和参考右视图代表与该单个视图有关的预期左视图位置和预期右视图位置的情况下，该偏好数据包括：

-作为指示与该单个视图有关的优选位置的所述指示符而提供的单个视图中心偏移量值。

3.如权利要求2中所要求的编码的方法，其中所述偏好数据（30）包括单个视图中心偏移量标记，其在提供所述单个视图中心偏移量值时被置位。

4.如权利要求1中所要求的编码的方法，其中所述偏好数据（30）包括依赖于输入视点与基线的关系的偏好数据，对于具有组成参考左视图和参考右视图的左视图和右视图的视频信号而言，该偏好数据包括：

-作为指示与左视图与右视图之间的中心位置有关的优选位置的所述指示符而提供的单个视图处理中心偏移量值。

5.如权利要求4中所要求的编码的方法，其中所述偏好数据（30）包括下列中的至少一个：

-单个视图处理中心偏移量标记，其在提供单个视图处理中心偏移量值时被置位；

-单个视图优选标记，其在单个视图处理是优选的时被置位；

6.如权利要求1至5中的任一项所要求的编码的方法，其中所述偏好数据（30）以该基线的1/100的精确度指示在参考左视图与参考右视图之间与该基线有关的该中心视图位置的优选位置。

7.如权利要求1至5的任一项所要求的编码的方法，其中基于在针对参考显示器、对于多个不同的中心视图位置呈现内容之后对所感知的图像质量的评价，确定中心视图的优选位置，和/或其中所述偏好数据（30）被针对下列中的一个来设定：每帧、帧的每组、每个场景。

8.一种对供多视图立体显示设备（100）所用的视频数据信号（50）进行解码的方法，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述视频数据信号（50）包括编码的数据，所述编码的数据代表：

-如从输入视点看到的场景的第一图像（10），所述输入视点与参考左视图与参考右视图之间的基线有关，

-与该第一图像（10）相关联的深度图（20），

-偏好数据（30），其包括指示符，该指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，

所述方法包括：

获得视频数据信号（50），

基于第一图像（10）和深度图（20）及偏好数据（30）从显示屏幕呈现多个视图（95），其特征在于，

所述获得视频数据信号（50）包括获得被编码在视频数据信号（50）中的中心视图的优选位置，并且

所述呈现包括与视锥中中心视图的优选位置相一致地或者在其周围呈现视图，所述视锥以视锥的中心位置处的该中心视图为中心，所述中心视图指向与显示屏幕垂直的角度。

9.一种用于对供多视图立体显示设备（100）所用的视频数据信号（50）进行编码的编码器，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，

所述编码器包括：

-第一获取单元（15），用于提供如从输入视点看到的场景的第一图像（10），所述输入视点与参考左视图与参考右视图之间的基线有关，

-第二获取单元（25），用于提供与第一图像（10）相关联的深度图（20），

-第三获取单元（35），用于提供偏好数据（30），所述偏好数据包括指示符，所述指示符指示供基于该第一图像和深度图的视图呈现所用的附加视图的优选位置，以及

-生成器（60），被安排用于生成包括代表第一图像（10）、深度图（20）和偏好数据（30）的编码的数据的视频数据信号（50），以使所述设备能够呈现所述视图，其特征在于，

所述第三获取单元被安排为：为了提供所述指示符，而提供指示所述中心视图的优选位置的指示符，所述优选位置与所述基线有关。

10.一种用于对供多视图立体显示设备（100）所用的视频数据信号（50）进行解码的解码器，所述设备被安排用于从显示屏幕对多个视图进行视图呈现，所述视频数据信号（50）包括编码的数据，所述编码的数据代表：

-与该第一图像（10）相关联的深度图（20），

所述解码器包括：

-解复用器（80），用于对第一图像数据（10）、深度图（20）和偏好数据（30）解复用，以及，

-视图呈现器（90），被安排用于基于第一图像（10）和深度图（20）及偏好数据（30）呈现所述多个视图，其特征在于，

所述对视频数据信号（50）的解复用包括获得被编码在视频数据信号（50）中的中心视图的优选位置，并且

11.按照权利要求10的解码器，其中解码器被进一步安排用于呈现相互等距的视图。

12.一种用于对供多视图立体显示设备（100）所用的视频数据信号（50）进行编码的装置，所述装置包括：

存储器，其上存储有指令；以及

处理器系统，当其被配置为执行所述指令时，执行按照权利要求1-7的任何一项的方法的步骤。

13.一种用于对供多视图立体显示设备（100）所用的视频数据信号（50）进行解码的装置，所述装置包括：

存储器，其上存储有指令；以及

处理器系统，当其被配置为执行所述指令时，执行按照权利要求8的方法的步骤。