CN102474638B

CN102474638B - 组合3d视频与辅助数据

Info

Publication number: CN102474638B
Application number: CN201080033593.1A
Authority: CN
Inventors: P.S.牛顿; D.D.R.J.博利奥; M.J.M.库尔弗斯; G.W.T.范德海登; W.H.A.布鲁尔斯; W.德哈恩; J.C.塔尔斯特拉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-07-27
Filing date: 2010-07-20
Publication date: 2015-07-01
Anticipated expiration: 2030-07-20
Also published as: KR20120049292A; US20120120200A1; WO2011013030A1; EP2460360A1; JP2013500664A; US10021377B2; TWI542191B; RU2554465C2; JP5647242B2; RU2012106868A; JP2015092669A; TW201130292A; CN102474638A; KR101716636B1

Abstract

提供了一种三维（3D）视频信号（41）以便传送到3D目的设备（50）。确定表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明与用户最接近的视频数据的深度的接近值。包括3D视频数据的3D视频信号现在还包括深度元数据。使得3D目的设备（50）能够获取深度元数据、提供辅助数据以及根据所获取的元数据将辅助数据定位在辅助深度以便与3D视频数据相组合地显示辅助数据，从而避免由所述最接近视频数据遮蔽辅助数据以及/或者避免辅助数据的边界处的干扰效应。

Description

组合3D视频与辅助数据

技术领域

本发明涉及一种提供三维（3D）视频数据以便传送到3D目的设备的方法，所述方法包括确定表明出现在3D视频数据中的深度的深度元数据。

本发明还涉及一种3D来源设备、一种3D目的设备、一种信号、一种记录载体以及一种计算机程序产品。

本发明涉及在3D显示设备上与诸如字幕、徽标之类的辅助数据或者其他3D图像数据相组合地呈现3D视频数据的领域。

背景技术

用于生成2D视频数据的设备是已知的，比如视频服务器、广播设备或著作设备。当前，用于提供三维（3D）图像数据的3D增强设备正被提出。类似地，用于呈现显示3D视频数据的目的设备也正被提出，比如用于光盘（例如蓝光盘；BD）的播放器或者呈现所接收到的数字视频信号的机顶盒。所述目的设备将被耦合到例如电视机或监视器之类的显示设备。通过适当的接口从来源设备传送视频数据，优选地是例如HDMI之类的高速数字接口。还可以把3D显示器与目的设备集成在一起，例如具有接收部分和3D显示器的电视（TV）。

对于诸如3D电影或TV广播之类的3D内容，可以与图像数据相组合地显示附加的辅助数据，比如字幕、徽标、比赛比分、用于财经新闻或者其他声明或新闻的滚动文本区（ticker tape）。

文献WO2008/115222描述了一种用于将文本与三维内容相组合的系统。所述系统将文本插入与在3D内容中的最接近深度值相同的水平处。3D内容的一个实例是二维图像和相关联的深度图。在该例中，调节所插入的文本的深度值，以便匹配给定深度图的最接近深度值。3D内容的另一个实例是多个二维图像和各个相关联的深度图。在该情况中，连续地调节所插入的文本的深度值，以便匹配给定深度图的最接近深度值。3D内容的另一个实例是具有右眼视图和左眼视图的立体内容。在该情况中，偏移左眼视图和右眼视图的其中之一内的文本，以便匹配立体图像中的最接近视差值。3D内容的另一个实例是具有多个右眼视图和左眼视图的立体内容。在该情况中，连续地偏移各个左眼视图或右眼视图中的文本，以便匹配各个立体图像中的最接近深度值。其结果是，所述系统产生与3D内容相组合的文本，其中在由观看者观看时，所述文本不会阻挡3D内容中的3D效果并且不会产生视觉疲劳。

WO2008/038205描述了一种用于在3D显示器上显示视频和图形数据的系统。所述3D显示器具有一定深度范围，所述深度范围被细分成各个子范围。在第一子范围内显示主要视频，并且将次要视觉信息指定给第二子范围。用于3D显示器的输入图像数据通常是具有3D格式的深度信息的数字数据。举例来说，提供具有深度信息的左视图和右视图，其中所述深度信息是出现在不同位置处的所述视图中的对象的视差，或者提供2D图像和深度地图。

发明内容

文献WO2008/115222描述了将在图像数据的最靠近部分的前方显示辅助图形数据。当需要在处理资源有限的目的设备中将辅助数据与3D视频数据相组合时会出现问题。从3D视频流中导出最接近深度值需要处理深度信息。特别对于例如包括左、右视图的多视图3D视频流来说，检测最接近深度或者与之对应的视差值需要相当多的处理。

本发明的一个目的是提供一种用于以更加方便的方式组合辅助数据与3D视频内容的系统。

为了所述目的，根据本发明的第一方面，如在开头段落中所描述的方法包括：

-确定深度元数据，所述深度元数据包括表明在3D显示器上显示时与观看者最靠近的3D视频数据中的元素的深度的接近数值；

-生成包括3D视频数据的3D视频信号；以及

-将深度元数据包括在3D视频信号中，

以便允许3D目的设备

-获取深度元数据；

-提供辅助数据；以及

-根据所获取的元数据将辅助数据定位在辅助深度，以便与3D视频数据相组合地显示辅助数据。

为了所述目的，根据本发明的第二方面，用于提供三维（3D）视频信号以便传送到3D目的设备的3D来源设备包括用于执行以下步骤的处理装置：

-确定表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明当在3D显示器上显示时最接近观看者的3D视频数据中的元素的深度的接近值；

-生成包括3D视频数据的3D视频信号；以及

-将深度元数据包括在3D视频信号中，

以便允许3D目的设备

-获取深度元数据；

-提供辅助数据；以及

为了所述目的，根据本发明的另一方面，用于接收三维（3D）视频信号的3D目的设备包括用于接收3D视频信号的接收装置，所述3D视频信号包括3D视频数据和表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明当在3D显示器上显示时最接近观看者的3D视频数据中的元素的视频数据的深度的接近值，所述3D目的设备还包括用于执行以下步骤的处理装置：

-从3D视频信号获取深度元数据；

-提供辅助数据；以及

为了所述目的，根据本发明的另一方面，用于向3D目的设备传送3D视频数据的三维（3D）视频信号包括3D视频数据和表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明当在3D显示器上显示时最接近观看者的3D视频数据中的元素视频数据的深度的接近值，以便允许3D目的设备

-获取深度元数据；

-提供辅助数据；以及

所述措施的效果在于，在来源处确定出现在3D视频数据中的深度值，例如从左/右3D格式下的左、右视图计算视差值，或者从2D+深度流处理深度数据，或者从任何其他3D图像格式导出这样的深度值。随后将深度元数据包括在3D视频信号中。有利的是，在目的设备处，可以把任何辅助数据与3D视频数据相组合，并且基于深度元数据在深度方向上对其进行定位，从而避免由所述最接近视频数据遮蔽辅助数据以及/或者避免辅助数据的边界处的干扰效应。应当提到的是，当辅助数据被定位成比更靠近的对象更远但是仍将被显示时就将会发生这种干扰效应。具体来说，辅助数据不需要在来源设备处可用，而是在目的设备处被动态地提供，所述目的设备通过把辅助数据定位在适当的深度而生成组合的3D视频信号，其中不需要很多处理资源来导出深度元数据。

本发明还基于以下认识。现有技术文献描述了在3D视频来源系统处将文本定位在图像中的最接近元素之前的深度。但是辅助数据在来源处可能不可用。在目的设备处基于现有技术定位辅助数据将需要大量处理。此外，为了示出诸如菜单之类的动态辅助数据或者游戏人物之类的所生成的辅助图形对象，可以基于深度元数据选择3D视频数据的一个适当部分，例如其接近值与观看者不靠近的一个时间段。这样的定位确实会把文本或对象带到没有那么靠近观看者的地方。最后，所述系统允许3D视频的著作者设定深度元数据，并且影响在呈现设备处添加的任何辅助数据的定位。

在一个实施例中，深度元数据包括表明出现在3D视频数据中的与用户最远离的深度的远离值，以便允许3D目的设备将辅助深度设定成与接近值相比更加远离用户，并且在离开用户的方向上对3D视频数据施加偏移，以便将所述最接近视频数据偏移到与辅助深度相比更加远离用户的深度，所述偏移基于远离值而被最大化。其效果是通过向后（离开观看者）偏移输入三维视频信号来适配三维视频信号，这是借助于根据远离值的深度方向上的偏移而实现的。因此就空出一定的深度范围，以便在深度方向上把辅助数据定位在经过偏移的三维视频的前方。

在一个实施例中，所述接近值是视差值。其效果是目的设备知晓最接近视频数据的视差值，并且可以利用所述视差值容易地将辅助数据定位在视频之前。在目的设备的一个实施例中，当辅助数据是二维（2D）数据并且接近值是视差值时，所述处理装置被设置成生成至少左辅助图像和右辅助图像，这是通过对2D辅助数据施加基于视差值的至少一个水平偏移而实现的。其可以有利地被直接使用来通过偏移左视图生成右视图，或者把所述视图向左、右偏移视差的50%来生成左、右视图。

在一个实施例中，3D视频信号包括被设置成根据预定义标准传送解码信息的已编码视频数据流，并且所述将深度元数据包括在3D视频信号中包括将深度元数据包括在以下各项的至少其中之一内：

-用户数据消息；

-信令基本流信息（SEI）消息；

-进入点表；

-基于XML的描述。

其效果是通过扩展根据所述预定义标准的控制消息或参数来包括附加的深度元数据。有利的是，所述增强的已编码视频流与已有的预定义标准兼容，同时仍然有效地传送深度元数据。

在所附权利要求书中给出了根据本发明的方法、3D设备和信号的其他优选实施例，其公开内容被通过引用合并在此。

附图简述

参照下面描述通过举例的方式描述的实施例并且参照附图，本发明的上述和其他方面将变得显而易见并且将对其进行进一步阐述，其中：

图1示出了几个一般概念以及定义视差的参数；

图2A示出了三维输入信号的视差直方图；

图2B示出了三维输入信号和三维叠加的另一个视差直方图；

图3示出了根据本发明的立体输入对的右视图图像的适配；

图4示出了根据本发明的一种方法；

图5A示出了根据本发明的一种系统；

图5B示出了根据本发明的另一种系统；

图6示出了用于显示3D图像数据的一种系统；

图7示出了私有用户数据SEI消息中的视差/深度元数据；

图8示出了对应于3D视频信号中的深度元数据的数据结构；

图9示出了对应于记录载体上的3D视频信号的深度元数据的数据结构；

图10a示出了携带深度元数据的元数据字段的格式；以及

图10b示出了携带视差数据的元数据字段的格式。

在附图中，对应于已被描述过的元件的元件具有相同的附图标记。

实施例的详细描述

应当提到的是，本发明可以被用于具有一定深度范围的任何类型的3D显示。假设用于3D显示的视频数据可以作为电子（其通常为数字的）数据而获得。本发明涉及这样的图像数据，并且在数字域内操纵所述图像数据。

有许多不同方式可对3D图像进行格式化及传送，其被称作3D视频格式。一些格式是基于使用2D通道来同时载送立体信息。举例来说，可以交织或者可以并排以及上下放置左、右视图。这些方法牺牲分辨率来载送立体信息。另一种选项是牺牲颜色，这种方法被称作补色立体。补色立体使用光谱多路复用，其是基于以互补色显示两个单独的叠加图像。通过使用具有有色滤光器的眼镜，每一只眼只看到与该眼前方的滤光器具有相同颜色的图像。从而例如右眼只看到红色图像，并且左眼只看到绿色图像。

一种不同的3D格式是基于使用2D图像和附加的深度图像的两个视图，所述附加的深度图像即所谓的深度图，其传达关于各个对象在2D图像中的深度的信息。被称作图像+深度的格式的不同之处在于，其是2D图像与所谓的“深度”或视差图的组合。所述视差图是一个灰度图像，其中一个像素的灰度值表明相应的像素在相关联的2D图像中的视差（或者在深度图的情况下是深度）的数量。显示设备取得2D图像作为输入并且使用视差、深度或平行视差图来计算附加的视图。这可以通过多种方式来实现，在最简单的形式下是根据与像素相关联的视差值将所述像素向左或向右偏移。Christoph Fehn的标题为“Depth image based rendering, compression and transmission for a new approach on 3D TV”的文章给出了关于所述技术的非常好的概述（参见http://iphome.hhi.de/fehn/Publications/fehn_EI2004.pdf）。

图1示出了几个一般概念以及定义视差的参数。图1示出了位于双向箭头E边缘处的两个视点，二者分开目距E。在观看距离Z处放置由点线代表的屏幕S，其被用于显示三维信息。这样的屏幕在实践中例如可以是交替地为佩戴适当眼镜的观看者的眼睛提供用于对应视点的适当图像信息的时间或光谱的顺序显示。屏幕S在这里被放置在零视差处，W表示屏幕的宽度。N（接近）表示屏幕S前方的最大感知深度。同样地，F（远离）表示屏幕S后方的最大感知深度。

线d_N表示位于屏幕S前方N处的对象的感知视差，视差值d_N在这里是负的，其也被称作交叉视差并且可被表示为下式：

d_N=N E/(Z-N) [1]。

线d_F表示位于屏幕S后方F处的对象的感知视差，视差值d_F在这里是正的，其也被称作无交叉视差并且可以被表示为下式：

d_F=F E/(Z+F) [2]。

在实践中，最大视差应当低于目距E，以便允许舒适的观看。在实践中，最大视差优选地被设定到低于平均目距E的值，以便允许人们当中的目距变化。

应当提到的是，最大正屏幕平行视差（即对应于最大正视差的像素数）取决于屏幕宽度W和屏幕S的分辨率。

图2A示出了三维输入信号的视差直方图205。直方图205是根据输入的三维信号确定的，也就是基于三维输入信号的整个空间区域确定的。或者，可以对于三维输入信号的整个空间区域的代表性样本编辑视差直方图。

在图2A中，沿着d轴的最接近视差值是点C，其具有负视差。最远离视差值是沿着d轴的点B，其具有正视差。基于直方图205，用在根据本发明的方法中的远离视差估计对应于点B。

直方图205表明，在视差范围内有净空215可用于将输入三维的视差范围偏移离开观看者，即将直方图向右移动。

考虑其中需要在对应视图中的特定空间区段内放置叠加的情况。图2A还示出了相关空间区段中的输入三维信号的视差直方图。所述空间区段的三维输入信号的直方图由粗断线205’表示。基于直方图205’，表明该空间区段的最小视差值的接近视差估计对应于点A。应当提到的是，由于该特定空间区段不包括更小（即负值更大）的视差值，因此在所述空间区段内已经有大量净空210用于放置叠加。

应当提到的是，用于放置叠加的空间区段通常是由轮廓线定义的方块或节段，因此明显不同于被用来如前所述地确定整个视图的视差估计的样本点。

虽然在所述空间区段内已经有了大量净空以用来放置叠加，但是仍然有可能通过将输入三维视频信号的视差范围偏移离开观看者达视差偏移DS来产生甚至更多的净空，其中DS<E-B。虽然不是严格必要的，但是明智的是保留如图2B中由余量215’表示的一定余量(E-B)-DS以用于容许各种用户之间的不同目距。其结果是，本发明在视差范围内提供了用于放置叠加的附加增益。

直方图220表示所述叠加的视差直方图，由于所述叠加被完全放置在该空间区段内，因此该直方图也是整个图像上的叠加的直方图。作为所述视差偏移的结果，现在有可能将诸如字幕之类的叠加信息放置在零视差平面处或其附近，从而改进了叠加观看的舒适度。

如前所述，可以基于与输入三维视频信号一起提供的视差直方图信息确定远离和接近视差估计。或者，可以利用本领域技术人员已知的算法从输入三维视频信号导出远离和接近视差估计。这样的算法的一个实例在Konrad等人的“Dense disparity estimation from feature correspondences”（IS&T/SPIE Symposium on Electronic Imaging Stereoscopic Displays and Virtual Reality Syst.，2000年1月23-28日，San Jose，CA，USA）中给出。

图3示出了本发明所提出的偏移视差的处理。左侧示出了来自立体输入视频信号的图像对LV1和RV1。所述图像在图像LV1和RV1中分别示出了置于零视差处的灰色方块310和310’以及置于所述方块前方的负视差处的白色圆盘305和305’。

从灰色方块310和310’的边缘处的垂直细虚线可以看出，所述矩形具有零视差，这是因为其被放置在左、右图像中的相同位置处。

圆盘305和305’具有负的屏幕平行视差，即在右图像RV1中，圆盘305’比圆盘305在左图像LV1中的位置靠左。作为结果，其在显示器前方被显现。

为了把场景向后偏移，我们把RV1向右偏移以获得RV1’。比较RV1’与LV1我们现在看到，圆盘305’具有零视差，并且所述矩形具有正视差。

为了把经过偏移的图像适配于立体显示，在右侧裁剪经过偏移的图像RV1’并且在左侧扩展相等的数量，从而得到RV1’’。LV1和RV1’’又可以被一起显现为新的立体对，其中所述场景与原始LV1-RV1对相比已被向后偏移。其结果是，LV1-RV1’’对与LV1-RV1对相比具有更多净空以用于放置叠加。

应当提到的是，虽然在前面的实例中仅仅偏移了其中一个视图，但是也有可能把左图像LV1和右图像RV1偏移相反的同等数量，其中组合的数量对应于RV1’的偏移。其结果是，全部两个经过偏移的图像都将被扩展，但是扩展区段是在图3中裁剪及扩展的尺寸的一半。其结果是，从所述扩展得到的伪像可以被更加均匀地散布。

当偏移多视图（例如三个视图）内容时，有可能保留中心图像并且分别偏移及扩展左、右图像。本领域技术人员将清楚，前面的偏移视差范围的方式可以随后被扩展到进一步的多视图图像以及扩展到任何适当数量的图像偏移，从而在其间得到相同的相对偏移数量。

在适配输入三维视频信号时有几种选项可用，例如第一选项是仅仅使用裁剪。考虑一个立体视频信号，在该情况中有可能把视频信号中的左、右图像裁剪相同的数量。如果图像的宽高比不是问题，则经过裁剪的视图不需要扩展而可以被原样使用。这样做的优点在于不需要扩展，因此不会引入扩展伪像。第二选项是按照前面所描述的那样使用裁剪和扩展。考虑立体视频信号，在该情况中有可能把视频信号中的左、右图像裁剪相等的数量并且随后扩展对应的视图，正如图3中所给出的那样。使用扩展的优点在于可以保留输入三维视频信号的宽高比。应当提到的是，前面的选项列表并不是穷举性的。

图4给出了根据本发明的用于处理包括多个视图的输入三维视频信号的方法400的流程图。所述方法包括用于确定405远离视差估计和接近视差估计的步骤，其中远离视差估计表明输入三维视频信号的最大视差值，接近视差估计表明对应于输入三维视频信号内的一个空间区段的最小视差值。如前所述，对应的视差估计可以是基于元数据，或者替代地可以是基于输入三维视频信号的图像内容而确定的。

所述方法还包括以下步骤：通过借助于根据远离视差估计的视差偏移向后偏移输入三维视频信号来适配410三维视频信号，以及基于接近视差估计和视差偏移在经过偏移的三维视频信号的所述空间区段内生成415叠加。

优选地，所述方法还包括在经过偏移的三维视频信号上叠加420所述叠加的步骤。

如前所述，适配输入三维视频信号的步骤可以包括用于裁剪425以及利用填充像素扩展430对应的视图的步骤，以便获得经过更改的视差范围。

在立体信号的情况下，对一个或者优选的是全部两个视图进行裁剪并且随后进行扩展。对于N视图的多视图图像（其中N是偶数），对N-1或者优选的是N个视图进行裁剪及扩展，正如前面所描述的那样。

图5A给出了根据本发明的用于处理包括多个视图的输入三维视频信号的系统500。系统500包括用于确定远离视差估计和接近视差估计的视差确定器505，其中远离视差估计表明输入三维视频信号的最大视差值，接近视差估计表明输入三维视频信号内的空间区段的最小视差值。如前所述，视差确定器505可以被实施为视差估计器。所述系统还包括视差偏移器510，其被设置成用于通过借助于根据远离视差估计的视差偏移向后偏移三维视频信号来适配所述三维视频信号。所述系统500还包括叠加发生器515，其被设置成基于接近视差估计和视差偏移在经过偏移的三维视频信号的叠加安全区域内生成叠加。

优选地，系统500还包括视频混合器520，其被设置成在经过偏移的三维视频信号上叠加所述叠加。如图5A中所示的系统500可以被实施在个人计算机或者其他计算平台上以用于对内容进行离线处理。或者，其可以被例如实施在能够进行蓝光盘重放的设备中或者被实施在机顶盒或3D电视中。

图5B示出了根据本发明的另一种系统500，其中所述系统被分割在分析设备502和合成设备503中，这两个设备组合实施在如图5A给出的系统500中发现的功能。

应当提到的是，例如可以通过使用如前所述的对于输入三维视频信号的粗粒度视差分析来确定远离和接近视差估计，或者可以通过使用提供在输入三维视频信号中的元数据来确定。

在一个实施例中，对于每一帧或者每一组帧将字幕的深度和/或平行视差作为元数据与视频一起提供。电影的制作者或者后期制作人员可以通过著作工具来产生这些元数据。字幕的深度和/或平行视差被用来将字幕定位在背景视频前方的相应深度或平行视差处。

现在将详细阐述在3D视频信号中提供深度元数据。应当提到的是，深度元数据是描述3D视频信号中的深度信息的属性的任何数据。对于这里所描述的系统，至少将接近值包括在深度元数据中，其表明最接近用户的视频数据的深度，即在3D显示器上正确显示时的3D视频中最靠近观看者的元素。前面描述的接近视差估计和字幕的所述深度和/或平行视差就是接近值的实例。

图6示出了一种用于显示三维（3D）图像数据的系统，比如视频、图形或其他视觉信息。3D来源设备40将3D视频信号41传送到目的设备50，所述目的设备耦合到3D显示设备60以用于传送3D显示信号56。3D目的设备具有用于接收3D视频信号的输入单元51。举例来说，所述设备可以包括光盘单元58，其耦合到输入单元以便从例如DVD或蓝光盘之类的光学记录载体54获取3D视频信息。或者，所述设备可以包括网络接口单元59，其用于耦合到例如因特网或广播网的网络45，这样的目的设备通常被称作机顶盒。可以从例如来源设备40的远程媒体服务器获取3D视频信号。所述目的设备还可以是卫星接收器或媒体播放器。

3D来源设备具有处理单元42，其用于确定表明出现在3D视频数据30中的深度的深度元数据。3D视频数据可以从存储装置、从3D摄影机等处获得。深度元数据包括表明与用户最接近的视频数据的深度的接近值，即在3D显示器上正确显示时的3D视频中的与观看者最靠近的元素。前面已经对于多视图数据讨论了确定诸如视差值之类的深度元数据以及接近值的实例（例如表明输入三维视频信号内的空间区段的最小视差值的接近视差估计（A））。所述处理单元生成包括3D视频数据的3D视频信号，并且将深度元数据包括在3D视频信号中。

3D来源设备可以是服务器、广播设备、记录设备或者用于制造蓝光盘之类的记录载体的著作和/或制作系统。蓝光盘支持用于内容创作者的交互式平台。其支持两层图形叠加以及两个可编程环境集合以供著作者从中选择。对于3D立体视频存在许多格式。主要的格式有立体和图像加深度格式。其中又有许多可能的方式来可对内容进行格式化，以便适于与新的和已有的3D显示器和分发格式一起使用。这对于如何扩展蓝光盘标准中的图形系统以使其适于与特定3D视频格式相组合方面也有影响。可以从蓝光盘联盟的网站上的一篇关于视听应用格式的文章中获得关于蓝光盘格式的更多信息。http://www.blu-raydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisualapplication_0305-12955-15269.pdf。因此，可以包括辅助数据以便在各个呈现阶段添加。所述制作处理还包括以下步骤：导出具体实现包括深度元数据的3D视频信号的轨道中的标记的物理模式，以及随后对记录载体的材料进行整形以便在至少一个存储层上提供所述标记轨道。

3D目的设备具有处理单元52，其耦合到输入单元51以用于处理3D信息，从而生成将通过输出接口单元55被传送到显示设备的3D显示信号56，所述显示信号例如是根据HDMI标准的显示信号，参见可以在http://hdmi.org/manufacturer/specification.aspx处获得的“High Definition Multimedia Interface; Specification Version 1.3a of Nov 10 2006”。处理单元52被设置成用于生成包括在3D显示信号56中的图像数据以供显示在显示设备60上。

所述目的设备具有辅助处理单元53以用于提供将在3D显示器上与3D视频数据相组合的辅助数据。辅助数据可以是将在目的设备中与3D视频内容本地组合的任何附加的图形图像数据，比如字幕、广播设备的徽标、菜单或系统消息、错误代码、新闻快讯、滚动文本区、诸如评论之类的另一个3D流等等。在下面的文字中，通常将把字幕用作表明每一种类型的辅助数据。

3D显示设备60用于显示3D图像数据。所述设备具有输入接口单元61，其用于接收从目的设备50传送来的包括3D视频数据和辅助数据的3D显示信号56。所传送的3D视频数据在处理单元62中被处理，以便在例如双LCD或双凸透镜式LCD之类的3D显示器63上显示。显示设备60可以是任何类型的立体显示器，其也被称作3D显示器，并且具有由箭头64所示的显示深度范围。

或者，在显示设备的一个实施例中执行用于提供及定位辅助数据的处理。通过显示信号56传送3D视频数据以及可选的辅助数据。还可以在显示设备中本地生成例如菜单之类的辅助数据。处理单元62现在执行在3D显示器上将辅助数据与3D视频数据相组合的功能。处理装置62可以被设置成用于目的设备中的处理装置52、53的如下所述的相应功能。在另一个实施例中，目的设备和显示设备被集成在单个设备中，其中单个处理装置集合执行所述功能。

图6还示出了作为3D视频信号的载体的记录载体54。所述记录载体呈圆盘状并且具有轨道和中心孔。所述轨道由一系列物理可检测的标记构成，其根据螺旋或同心圆圈的模式而被设置，构成信息层上的基本上平行的轨道。所述记录载体可以是光学可读的，其被称作光盘，例如CD、DVD、BD（蓝光盘）。通过沿着轨道的光学可检测标记在信息层上表示信息，所述标记比如是坑和平台。所述轨道结构还包括位置信息，例如报头和地址，其用于表示通常被称作信息块的信息单元的位置。记录载体54携带以预定义的记录格式（例如DVD或BD格式）表示视频之类的数字已编码（例如根据MPEG2或MPEG4编码系统被编码）图像数据的信息。

目的设备中的处理装置52、53被设置成用于执行下面的功能。3D视频信号由接收装置51、58、59接收。3D视频信号包括3D视频数据和表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明与用户最接近的视频数据的深度的接近值，正如前面所描述的那样。处理装置52、53被设置成用于从3D视频信号获取深度元数据、提供辅助数据以及根据所获取的元数据将辅助数据定位在辅助深度，以便与3D视频数据相组合地显示辅助数据，从而避免由所述最接近视频数据遮蔽辅助数据。

将3D图形叠加在3D视频上的一个问题是关于在重放设备中不知道背景中的立体3D视频的Z范围的情况下如何在3D空间内定位图形叠加。对于立体格式的立体3D视频通常就是这种情况。能够解决这一问题的方式高度依赖于所使用的3D视频的格式以及如何将组合的视频与图形发送到3D显示设备。

使用元数据来合成3D图像可以是基于包括几何结构、照明等等的完整3D模型，以便允许正确地合成立体图像。这种方法提供了一种在后期制作阶段、在著作环境中合成3D图像的机制。但是完全3D模型的问题在于其需要大量数据，这是因为对于图像中的每一个像素都提供3D信息。当应对必须在消费设备（比如蓝光盘播放器或机顶盒）中被合成在立体视频上的实时生成的立体图像时，这样的方法不太可行。

现在提出给作为动态辅助数据的背景的3D视频数据提供深度元数据，从而例如可以把实时生成的图形合成到该视频背景上。

在一个实施例中，对于每一帧或者画面组（GOP），将深度元数据添加到3D视频信号中。该深度元数据可以包括单个字节的数据，其值表明立体视频背景的左、右视图之间的最接近视差。或者，该深度元数据值可以表明任何图形叠加的视差，从而如果播放器合成实时生成的图形，其应当将所述图形定位在如元数据中所表明的视差处。

所提出的深度元数据可以包括每帧或每GOP一个字节。如果为每一帧添加一个字节，则对于一部两小时的立体电影，这需要173KB的数据，这是合理的。每画面组的使用将把其减小到（对于1秒钟的Gop长度）72KB的数据。由于尺寸有限，因此可以把深度元数据扩展成包括另外的与3D有关的字段。

将要解决的另一个问题是如何把深度元数据包括在分发格式中，从而可以按照兼容的方式包括深度元数据，并且其允许播放器实际能够将其用于实时合成。现在将描述包括元数据的几种方式。

目的设备将装备有所谓的“Z”合成器，其可以将立体图形叠加在立体视频上。举例来说，“Z”合成器被包括在处理单元52中。“Z”合成器解释深度元数据并且从中确定3D空间内的辅助数据在视频之上的定位。

在一个实施例中，“Z”合成器是如在现有技术中提到的基于完全3D模型的“Z”合成器的简化版本。所述版本不需要视频和图形的完全几何模型，而是仅仅使用表明立体视频的深度或视差范围的一个字节，并且将其用于辅助数据的叠加。

关于存储元数据，在一个实施例中，根据MPEG4之类的预定义的标准传输格式将视频背景的深度元数据包括在用户数据消息中，例如H.264已编码流的信令基本流信息（SEI）消息。所述方法的优点在于其与依赖于H.264/AVC编解码标准（例如参见ITU-T H.264和ISO/IEC MPEG-4 AVC，即ISO/IEC 14496-10标准）的所有系统兼容。新的编码器/解码器可以实施新的SEI消息，而已有的编码器/解码器将简单地将其忽略。

图7示出了私有用户数据SEI消息中的深度元数据。示意性地示出了3D视频流71。所述流中的一个元素是用以向解码器表明流参数的信令，即所谓的信令基本流信息（SEI）消息72。更具体来说，深度元数据73可以被存储在用户数据容器中。所述深度元数据可以包括深度值、视差值或者深度信息的任何其他表示。

图8示出了3D视频信号中的深度元数据的数据结构。该图中示出的表定义了视频流中的对应的控制数据分组的句法，特别是GOP_structure_map()。所述数据结构定义了深度元数据81的各个字段，即定义远离值的Video_max_disparity和定义接近值的Video_min_disparity；针对定义视差值还参见图1。应当提到的是，视频最小视差（Video_min_disparity）字段表示3D空间内朝向观看者的最接近对象，并且可以被用来确定将在何处叠加诸如字幕之类的任何图形，视频最大视差（Video_max_disparity）则表示视频中最远离观看者的对象的视差。应当提到的是，公共领域内的一些文献将最大视差值定义为代表最接近的对象；对于这样的定义，视差值的符号应当被反转。不管所述定义如何，在屏幕深度处的视差是零。

图9示出了记录载体上的3D视频信号中的深度元数据的数据结构。对于蓝光盘之类的记录载体上的视频数据，可以提供进入点图，其表明允许在进入点处开始呈现视频的各个进入点。可以通过添加深度元数据来扩展进入点图数据结构，所述深度元数据定义在进入点处开始的3D视频数据片段的深度值，并且例如直到下一个进入点之前都有效。特别对于蓝光盘标准，所述元数据被存储在如图中所示的EP图中。所述EP图包括表，该表保持对于流中的所有有效解码访问点（即可以在该处开始解码的点）的进入。

或者，所述元数据被提供为基于XML的描述，该描述在MPEG-2传输流的数据轮转中被传输。同样也在该MPEG传输流中发送的交互式TV应用可以利用该基于XML的描述来确定如何将立体图形合成到视频上。或者，可以作为针对播放列表的扩展来提供元数据。

在另一项改进中，所述元数据被扩展成包括最小和最大视差范围。这将允许叠加多个平面的视频和图形。

在意在叠加诸如字幕之类的文本的另一项改进中，重放设备把深度元数据的视差范围的最大值存储在专用寄存器中。其随后使用最接近值来确定将要叠加字幕的深度（或视差）。被保持在该寄存器中的值只随着时间逐渐改变。这就确保字幕不会一直改变深度，因为这样可能会导致观众的眼睛疲劳。

深度元数据的另一项扩展是在视频帧中定义几个区段，并且特别为该区段指定深度元数据值。在一个实施例中，如下执行选择区段。将显示区域细分成多个区段。对于每一个区段执行检测深度元数据。举例来说，将帧区域分成2个或更多区段（例如水平条带），并且对于每一个区段将最小和最大深度添加到流中。这样就为图形叠加给出自由度，因为现在还可以根据区段来定位所述图形叠加。

区段深度元数据可以是基于对多个区段的深度值的空间过滤，所述空间过滤是根据取决于区段的空间过滤器功能进行的。在一个实例中，显示区域被分成各个贴片。在每一个贴片中单独计算最大深度。在该例中，辅助数据可以处于特定深度，即使不同区段中的另一个对象的深度与观看者靠近得多也是如此。这样还允许将字幕合成在例如不同于弹出菜单的区域和视差上。所述“Z”合成器和所存储的数据量被扩展以容许应对各个区段。

在用于存储元数据的一个替换实施例中，每GOP的SEI消息包含各个输出平面的视差或偏置值列表以及视差或偏置方向指标。所述视差或偏置值表示立体输出的左、右输出平面之间的像素偏移，并且所述方向指标表明所述像素偏移是向左还是向右。像素偏移是当左输出平面中的位置x处的相应像素在右输出平面中被偏移到x+n或x-n。该偏置值列表可以被用于各种目的。一般来说，这样的偏置值被用于在立体视频背景上叠加2D单视图图形。在这种情况下，偏置值n被用来偏移2D图像中的像素从而产生第二图像，以便叠加在立体视频背景的第二视图（“R”）上，而所述2D图像则被叠加在立体视频背景的第一视图（“L”）上。发明人认识到，这样的具有方向指标的偏置值列表还可以被用来表示视频背景的最大和/或最小视差。举例来说，其平面偏置方向表明在第二（“R”）平面中向像素左侧偏移的平面偏置值=x表明video_max_disparity，并且其平面偏置方向指标表明在第二（“R”）平面中向像素右侧偏移的平面偏置值=y表明video_min_disparity。因此提出在所述表中包括附加的信令，其列出重放设备在呈现期间能够从中选择的可播放流。所述附加信令表明列表中所嵌入的哪些偏置值（其被嵌入在相关的流的SEI消息中）应当被用来以信号在输出上表明立体图像的最大和/或最小视差。图11示出了这样的信令的一个实例。图11

使用深度元数据的系统需要创建元数据并分发所述数据，而且最后需要一个所谓的“Z”合成器来读取元数据以及将辅助数据合成在3D视频之上，例如将立体图形合成在立体视频之上。视差估计器和元数据编码器确定视频内容中的一帧的最小和/或最大视差，并且在分发通道中对其进行编码。对于蓝光盘来说，其可以直接在已编码流中处于EP图或SEI消息中，正如前面所描述的那样。

EP图通常在特技播放期间被使用，其允许播放器快速跳跃到流中的正确位置以便开始解码下一帧。我们用深度元数据来扩展该表。图9示出了该表的简化版本，其中利用携带与访问点相关联的任何元数据的元数据字段对其进行了扩展。

图10a示出了携带深度元数据的元数据字段的格式。其中有两个字段92，其中一个包含访问点的最大深度范围值，另一个是被用来携带偏置的可选字段。对于正确的叠加来说，图形的深度应当比depth_max值更接近。

图10b示出了携带视差数据的元数据字段的格式。视差数据93是深度元数据的一种替换版本，其提供最小和最大视差范围或值，这允许叠加多个平面的视频。应用本发明的系统需要有用来创建元数据、用来分发所述数据的装置，并且在目的地处需要有所谓的“Z”合成器来读取元数据并且将立体图形合成在立体视频之上。

目的设备处的视频数据处理如下。为了进行解码，“Z”合成器确定将要在该处叠加图形的帧。其随后读取该帧的“深度”或视差元数据，或者如果该数据不可用的话，其使用与最接近I帧（或进入点）相关联的值。在下一步骤中，其确定左、右图形图像之间的视差是否大于（即具有更大负值）或等于视频背景图像的视差。如果立体图形的视差大于或等于在视频元数据中所表明的值，则Z合成器就把左、右图形图像合成到左、右视频帧上。如果所述视差更小，则辅助数据更加远离，并且“Z”合成器通过执行线性偏移来调节立体图形图像的视差，以便将图形的视差与深度元数据中表明的值相匹配。

或者，当仅有单个图形可用时，“Z”合成器将所述图形合成在左视频帧上并且将所述图形合成在右视频帧上但是水平向右偏移。偏移的数量取决于“深度”或视差元数据的值。应当提到的是，获得所期望的平行视差所需的偏移取决于一些参数，比如观众到显示器的观看距离。当作为像素数计算偏移时，必须知道观众的显示器的宽度和分辨率。这些参数也可以作为一个选项被包括到“深度”元数据中。在一个实施例中使用标准化或参考设置，其中例如显示器具有1米的宽度并且观众坐在与显示器相距4米处。

在实际的实施例中，字幕被叠加在3D内容上。主要内容作为立体（左/右）图像存在；字幕也作为图像存在。该实施例也可以根据适当的描述呈现字幕。该实施例使用以下步骤：

-对于3D视频的对应时段，从与3D视频信号一起传送的元数据中获取视差。在感兴趣的区段和/或时段内，从元数据获取最接近视差。可以对最小视差列表应用过滤以便确定经过过滤后的视差。

-将辅助数据定位在经过过滤的视差处，例如利用等于经过过滤的视差的左、右之间的像素位移将字幕混合在左、右图像之上。

-如果字幕是预先呈现的，则使用常规的α混合。如果字幕以文本格式存在，则利用子像素精度对其进行呈现。

-可以应用较小偏置（通常是一个像素）以便生成最前方对象与字幕之间的较小深度范围。

应当提到的是，前面的方法允许通过选择其中没有大于辅助深度值的深度值出现的一个区段的图像数据来选择目标区段。此外，所述选择可以包括选择时间段来显示辅助数据，从而使得在该目标区段内，没有出现大于辅助深度值的深度值。举例来说，可以对字幕的呈现进行延迟或偏移，以便允许位于更前方的对象消失。

在一个实施例中，确定深度模式包括检测多个视频内容帧中的深度值，并且根据时间过滤器函数对深度值进行时间过滤。举例来说，可以考虑其中将要显示字幕本身的时间段或者略微更长的时段，以避免出现与字幕过于邻近或者处于其更前方的对象。显示字幕的时段通常在显示信号中被表明。

具体来说，确定深度模式可以包括基于检测到多个视频内容帧中的镜头边界来为所述时间过滤器函数设定时间窗口。这可以如下实现。

从左图像或右图像计算镜头边界。通过利用图像的颜色直方图检测到图像内容的较大改变来找到镜头的起始图像。根据前面检测到的镜头剪切，对于所述镜头检测到最小视差列表。随后对于每一个镜头利用适当的时间窗口函数（其实例见后）对最小视差列表进行过滤。窗口函数是在某一选择的区间之外被零值化的函数。举例来说，在所述区间内部恒定并且在别处为零的函数被称作矩形窗口，其描述了其图形表示的形状。将图像信号（数据）乘以所述窗口函数，并且在所述区间之外也将乘积零值化。

通过对每一个镜头进行单独过滤确保只有来自该镜头内的值被使用。因此，如果感兴趣区段内的最前方对象的视差发生跳跃，则辅助图形数据的深度值也被允许在镜头剪切处跳跃，但是不允许在镜头内跳跃。作为一种替换方案，可以对镜头之间的深度放置进行过滤，从而允许镜头边界处的平滑的过渡。

为了选择窗口函数，该实施例使用Hann窗口函数，但是例如矩形窗口函数之类的其他窗口函数同样适用。Hann函数是以奥地利气象学家Julius von Hann命名的，其是由下式给出的离散概率质量函数：

。

所述窗口在当前时间位置处居中，从而把过去和未来的值都纳入考虑。这样做的效果是使得值平滑，从而避免视差的突然改变，并且确保叠加总是处于3D内容的前方。未来的值可能例如对于实时广播来说不可用，并且窗口化可以是仅仅基于过去的值。或者，可以首先将未来帧的一部分存储在缓冲器中，并且在呈现时应用一个较小的延迟。

应当提到的是，通过包括远离值（即视频的最小平行视差偏移（PS）或最大视差）允许将视频推后（对于L+R减小PS或增大视差相同的值），以便为辅助数据腾出空间。考虑远离值以避免过多的推后，也就是说所述推后绝不应当在屏幕上得到大于目距（通常是6cm）的视差值，即推后超过无限远。通过包括远离值（例如最大视差）可以由播放器避免这种情况。播放器还应当知道屏幕尺寸以便计算相应的像素偏移。

在目的设备的一个实施例中，检测最大值是否使得没有将视频（足够地）向后偏移的空间。所述处理随后临时切换到特殊模式，其中将主要3D视频显示为单视频或者显示到其左、右视图发生偏移的具有一个所选深度的单视频，从而使得所述单视频出现在屏幕后方。流中的一个附加参数（例如3D视频的某一时段的一个字节）可以表明将把所述单视频放置在所选深度的适当深度（或视差），例如略微处于屏幕后方，同时将辅助视频显示得更加靠近，例如处于屏幕处。

应当认识到，前面的描述为了清楚起见参照不同的功能单元和处理器描述了本发明的实施例。但是显而易见的是，在不背离本发明的情况下可以使用不同功能单元或处理器之间的任何适当的功能分布。举例来说，被图示为由分开的单元、处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此，在提到具体功能单元时仅仅应被视为提到用于提供所期望功能的适当装置，而不是表明严格的逻辑或者物理结构或组织。

本发明可以通过任何适当形式来实施，其中包括硬件、软件、固件或其任意组合。本发明可以可选地被至少部分地实施为运行在一个或更多数据处理器和/或数字信号处理器上的计算机软件。可以按照任何适当方式在物理、功能和逻辑上实施本发明的一个实施例的各个元件或组件。实际上，所述功能可以被实施在单个单元中、实施在多个单元中或者实施为其他功能单元的一部分。因此，本发明可以被实施在单个单元中，或者可以在物理和功能上分布在不同单元和处理器之间。

虽然结合一些实施例描述了本发明，但是本发明不意图被限制到这里所阐述的具体形式。相反，本发明的范围仅由所附权利要求书限定。此外，虽然某一项特征可能看来是结合特定实施例描述的，但是本领域技术人员将认识到，根据本发明可以组合所描述的各个实施例的各项特征。在权利要求书中，“包括”一词不排除其他元件或步骤的存在。

此外，虽然是单独列出的，但是例如通过单个单元或处理器可以实施多个装置、元件或方法步骤。此外，虽然各项单独特征可以被包括在不同的权利要求中，但是也可能有利地对这些特征进行组合，并且包括在不同权利要求中并不意味着特征组合不是可行的和/或有利的。此外，将某一项特征包括在一类权利要求中并不意味着限制到该类别，而是表明所述特征在适当情况下同样适用于其他权利要求类别。此外，权利要求中的特征顺序并不意味着所述特征必须按照任何特定顺序来工作，特别是一个方法权利要求中的各个单独步骤的顺序并不意味着必须按照该顺序来执行各个步骤。相反，可以按照任何适当顺序来执行各个步骤。此外，在提到单数时并不排除复数。因此，在提到“一个”、“某一个”、“第一”、“第二”等等时不排除多个。仅仅作为澄清实例而提供的权利要求中的附图标记不应当被解释为以任何方式限制权利要求的范围。

Claims

1.一种在3D来源设备处提供三维（3D）视频信号以便传送到3D目的设备的方法，

所述方法包括：

-生成包括3D视频数据的3D视频信号；以及

-将深度元数据包括在3D视频信号中，

以便允许3D目的设备

-获取深度元数据；

-提供辅助数据；以及

2.如权利要求1所述的方法，其中，所述深度元数据包括表明出现在3D视频数据中的与用户最远离的深度的远离值，以便允许3D目的设备

-将辅助深度设定成与接近值相比更加远离用户；以及

-在离开用户的方向上对3D视频数据施加偏移，以便将所述最接近视频数据偏移到与辅助深度相比更加远离用户的深度，所述偏移基于远离值而被最大化。

3.如权利要求1所述的方法，其中，所述深度元数据是偏置值列表以及偏置方向指标，所述偏置值表明辅助数据的左输出平面与右输出平面之间的像素偏移，并且所述方向指标表明所述像素偏移是向左还是向右，或者深度元数据包括表明在3D视频数据的至少一个空间区段中出现的深度的数据。

4.如权利要求1所述的方法，其中，3D视频信号包括被设置成根据预定义标准传送解码信息的已编码视频数据流，并且所述将深度元数据包括在3D视频信号中的做法包括将深度元数据包括在以下各项的至少其中之一内：

-用户数据消息；

-信令基本流信息（SEI）消息；

-进入点表；

-基于XML的描述。

5.如权利要求1所述的方法，其中，所述深度元数据包括表明出现在3D视频数据的至少一个空间区段内的深度的数据。

6.如权利要求1所述的方法，其中，所述方法包括制造记录载体的步骤，所述记录载体配备有代表3D视频信号的标记的轨道。

7.一种用于提供三维（3D）视频信号（41）以便传送到3D目的设备（50）的3D来源设备（40），

所述来源设备包括用于执行以下步骤的处理装置（42）：

-确定表明出现在3D视频数据（30）中的深度的深度元数据，所述深度元数据包括表明当在3D显示器上显示时最接近观看者的3D视频数据中的元素的深度的接近值；

-生成包括3D视频数据的3D视频信号；以及

-将深度元数据包括在3D视频信号中，

以便允许3D目的设备

-获取深度元数据；

-提供辅助数据；以及

8.如权利要求7所述的来源设备，其中，所述深度元数据是偏置值列表以及偏置方向指标，所述偏置值表明辅助数据的左输出平面与右输出平面之间的像素偏移，并且所述方向指标表明所述像素偏移是向左还是向右。

9.一种用于接收三维（3D）视频信号的3D目的设备（50），所述设备包括

用于接收3D视频信号的接收装置（51，58，59），所述3D视频信号包括3D视频数据和表明出现在3D视频数据中的深度的深度元数据，所述深度元数据包括表明当在3D显示器上显示时最接近观看者的3D视频数据中的元素的深度的接近值，以及

用于执行以下步骤的处理装置（52，53）：

-从3D视频信号获取深度元数据；

-提供辅助数据；以及

10.如权利要求9所述的目的设备，其中，所述接收装置包括用于读取记录载体以便接收3D视频信号的装置（58），或者其中所述设备包括用于与3D视频数据相组合地显示辅助数据的3D显示装置（63）。

11.如权利要求9所述的目的设备，其中，所述深度元数据包括表明出现在3D视频数据中的与用户最远离的深度的远离值，并且所述处理装置（52，53）被设置成：

-将辅助深度设定成与接近值相比更加远离用户；

12.如权利要求9所述的设备，其中，深度元数据是偏置值列表以及偏置方向指标，所述偏置值表明辅助数据的左输出平面与右输出平面之间的像素偏移，所述方向指标表明所述像素偏移是向左还是向右，并且处理装置（52，53）被设置成通过对辅助数据施加基于偏置值和偏置方向指标的水平偏移而生成至少左辅助输出平面和右辅助输出平面。