CN104205821B

CN104205821B - 深度辅助数据

Info

Publication number: CN104205821B
Application number: CN201380018746.9A
Authority: CN
Inventors: W.H.A.鲁斯; P.S.纽顿; J.C.塔斯特拉; W.德哈安
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-04-05
Filing date: 2013-04-05
Publication date: 2017-03-29
Anticipated expiration: 2033-04-05
Also published as: US20150085070A1; RU2014144269A; WO2013150491A1; BR112014024410B1; EP2834982A1; TW201349842A; TWI586143B; CN104205821A; JP6242380B2; BR112014024410A2; KR102086124B1; JP2015515820A; KR20150004823A; EP2834982B1; RU2632426C2; US9584794B2; ES2645639T3

Abstract

描述了用于朝向各种类型的3D显示器传输3D数据的混合传输/自动转换3D格式和方案。在解码器（20）中，立体‑深度转换器（24）生成深度图。在3D视频信号中，被称为深度辅助数据（DH‑bitstr）的附加深度信息在时间上（时间上的部分深度）和/或空间上（帧内的部分深度）被稀疏地传输。深度开关（25）基于显式或隐式机制来选择部分深度，该显式或隐式机制用于指示这些深度何时将被使用或者这些深度何时必须在本地被自动地生成。有利地，由于所述立体‑深度转换器而产生的干扰深度差错被深度辅助数据减小。

Description

深度辅助数据

技术领域

本发明涉及用于提供三维[3D]视频信号以传送到3D目的地设备的3D源设备。3D视频信号包括表示3D显示器上的左眼视图的第一视频信息和表示3D显示器上的右眼视图的第二视频信息。3D目的地设备包括用于接收3D视频信号的接收机和用于基于第一和第二视频信息来生成第一生成深度图的立体-深度转换器。3D源设备包括用于生成3D视频信号，并用于将3D视频信号传送到3D目的地设备的输出单元。

本发明还涉及一种提供3D视频信号以传送到3D目的地设备的方法。

本发明涉及在源设备（例如，广播方、互联网网站服务器、授权系统、蓝光盘制造商，等等）处生成3D视频信号并将3D视频信号传送到需要深度图以呈现多个视图的3D目的地设备（例如，蓝光盘播放器、3D电视机、3D显示器、移动计算设备，等等）的领域。

背景技术

文档“关于用于纳入深度图的MVC扩展的工作草案-ISO/IEC/JTC1/SC29/WG11/N12351，2011年12月，Teruhiko Suzuki，Miska M. Hannuksela，Ying Chen”是对于ITU-TRec. H.264 | ISO/IEC 14496-10的新修订的提案，用于将3D视频技术增加到MPEG编码视频传送信号（进一步被称为ISO提案）。该ISO提案描述对于音频-视频对象的编码，尤其是对于所述ISO标准第10部分（先进视频编码）的修订，该修订关于用于将深度图纳入视频格式中的多视点编码（MVC）扩展。根据该修订，描述了用于纳入深度图视频编码的MVC扩展，允许构建表示具有相关的多个补充视图（即深度图视图）的多个视图的比特流。类似于多视点视频编码，表示多个补充视图的比特流也可以包含遵循所提议的规范的另外的子比特流。

根据该ISO提案，深度图可以被增加到3D视频数据流，该3D视频数据流具有表示3D显示器上的左眼视图的第一视频信息和表示3D显示器上的右眼视图的第二视频信息。在解码器侧的深度图使得能够生成例如用于自动立体感显示器的、该左右视图之外的另外的视图。

发明内容

该ISO提案要求视频材料被提供有深度图，这要求附加的数据传输容量。此外，有许多现有3D视频材料没有深度图数据。对于这样的材料，目的地设备可以具有用于基于该第一和第二视频信息来生成被生成深度图的立体-深度转换器。

本发明的目的是提供用于提供深度信息并传送该深度信息的系统，该系统对于增强3D视频呈现更为灵活。

为此目的，根据本发明的第一方面，如开头段落中描述的源设备被布置用于提供与视频信息相关的源深度图，并且该3D源设备包括：源立体-深度转换器，用于基于该第一和第二视频信息来生成第二生成深度图；以及源深度处理器，被布置用于仅当源深度图和第二生成深度图之间的差异超过预定阈值时才提供深度辅助数据，该深度辅助数据表示源深度图，并且输出单元被布置用于将深度辅助数据包括在3D视频信号中。

3D视频信号包括深度辅助数据。

3D目的地设备包括深度处理器，该深度处理器用于当3D视频信号中无深度辅助数据可用时基于第一生成深度图，并且当3D视频信号中深度辅助数据可用时基于该深度辅助数据，来生成目的地深度图。

这些措施具有这样的效果：使得目的地设备能够基于从表示左右视图的第一和第二视频信息而在本地生成的深度图来生成目的地深度图，并且，在可用之时和可用之处，应用深度辅助数据以增强所述在本地生成的深度图。有利地，仅当在本地生成的深度图与源深度图具有实质性差异时才传送深度辅助数据。因此，减小了由于不正确地生成的深度图所引起的视觉干扰差错。

本发明还基于以下认识。发明人已经看到，当基于左右视图时，本地深度图生成通常提供非常合意的结果。然而，在某些时刻或位置，可能会发生干扰差错。通过在源处预测这样的差错的发生，并且仅针对这样的时刻或时期而增加所述辅助数据，限制了必须传送的附加深度数据的量。此外，通过基于源深度图来传送辅助数据，并且在目的地侧选择该辅助数据而不是使用错误的、在本地生成的深度数据，实现了对于多个视图进行基于深度的呈现的显著改进。

可选地，在3D源设备中，输出单元被布置用于仅针对校正时段而将深度辅助数据包括在3D视频信号中，在该校正时期内时，所述差异超过所述阈值。效果是，仅仅在发生实质性深度差错的时期才传输辅助数据，该时期实际上少于10%的时间。有利地，减少了要传送的数据的量。

可选地，在3D源设备中，输出单元被布置用于仅针对小于3D显示器的该校正区域而将深度辅助数据包括在3D视频信号中，在该校正区域中时，所述差异超过所述阈值。效果是，仅仅针对发生实质性深度差错的位置才传输辅助数据，该位置实际上少于发生这样的差错的帧的50%。有利地，减少了要传送的数据的量。

可选地，在3D源设备中，深度处理器被布置用于针对校正区域生成深度辅助数据，以使所述校正区域对齐于3D视频信号中的至少一个宏块，该宏块表示压缩视频数据的预定块，该宏块对齐的校正区域包括针对所述源深度图与所述第二生成深度图之间的差异不超过预定阈值的位置的另外的深度数据。效果是，校正区域将被普通编码处理器高效地编码，因为编码按照宏块来组织。相反地，对于仅包括针对错误的深度值的校正的任意形状进行编码，将需要许多编码努力并且导致低压缩率。这样的校正区域还包含像素，对于这些像素，第二生成深度图和源深度图的深度值小且低于阈值。另外的深度数据可以基于第二生成深度图以避免在该宏块对齐的校正区域的外部边界处的深度跳跃。有利地，使得另外的深度校正值等于所生成的值，将在解码器侧避免跨宏块的深度差异变得可见。

可选地，在3D源设备中，输出单元被布置用于将信令辅助数据包括在3D视频信号中，该信令辅助数据指示深度辅助数据的可用性。有利地，使得解码器能够基于该信令辅助数据而容易地检测深度辅助数据的存在或不存在。信令辅助数据可以例如包括以下各项中的至少一个：

-标志信号，指示深度辅助数据的存在；

-深度图中预定义的无深度值，指示对于对应位置不存在深度辅助数据；

-辅助长度数据，指示数据结构中深度辅助数据的量；

-视图指示符数据，指示深度辅助数据可用的多个视图和/或视图的类型；

-辅助类型数据，指示用于深度辅助数据的数据结构；

-辅助分辨率数据，指示深度辅助数据的分辨率；

-辅助位置数据，指示深度辅助数据的位置。

有利地，这样的信令辅助数据指示深度辅助数据的存在和/或量。

可选地，在3D源设备中，输出单元被布置用于将对应于3D显示器上的显示区域的深度图包括在3D视频信号中，该深度图包括针对校正区域和/或校正时期的深度辅助数据，以及，作为信令辅助数据的预定义的无深度值，指示针对其他区域和/或时期对于对应位置不存在深度辅助数据。深度图可以被包括在用于具有任意深度辅助数据的帧的信号中，即隐含地，深度图的存在指示存在深度辅助数据。可替换地，对于所有帧都可以包括深度图。发明人已经注意到，当前的压缩方案非常高效地压缩在大部分甚至整个显示表面上具有单个值的深度图，尤其是当指示本地不存在辅助数据的无深度值被选择为0或255时。有利地，在解码器侧自动地处理深度图，仅当深度值偏离所述无深度值时使用任意校正值。

可选地，深度图包括以下各项中的至少一个：对应于左视图的深度数据、对应于右视图的深度数据、对应于中央视图的深度数据、具有低于第一视频信息或第二视频信息的分辨率的深度数据。有利地，通过提供根据所述准则的一个或多个深度图，解码器可以根据需要使用合适的深度图。

在所附的权利要求中给出了根据本发明的设备和方法的另外的优选实施例，其公开内容通过引用合并于此。

附图说明

通过进一步参考在下面的描述中作为示例而被描述的实施例并且参考附图，本发明的这些和其他方面将显而易见并被阐明。

在附图中：

图1示出用于处理3D视频数据并显示该3D视频数据的系统；

图2示出使用深度辅助数据的3D解码器；

图3示出提供深度辅助数据的3D编码器；

图4示出自动立体显示设备和生成多个视图；

图5示出双视图立体显示设备和生成增强的视图；以及

图6示出3D视频信号中深度辅助数据的存在。

这些附图纯粹是图解式的并且未按比例绘制。在这些附图中，与已经描述的元件对应的元件可以具有相同的参考数字。

具体实施方式

注意，本发明可以被用于任何类型的3D图像数据，无论静止图片还是运动视频。假定3D图像数据作为电子的、被数字地编码的数据而可用。本发明涉及这样的图像数据并且在数字域中操作该图像数据。

根据所谓的3D视频格式，有许多不同方式可以格式化和传送3D视频信号。一些格式是基于使用2D信道来另外承载立体信息。在3D视频信号中，图像由图像值以二维像素阵列表示。举例来说，左、右视图可以被交错或者可以被并排或上下放置。还可以传送深度图，并且可能传送比如遮挡（occlusion）或透明度数据的另外的3D数据。在本文中，视差图也被认为是一种深度图。该深度图具有同样处于对应于该图像的二维阵列中的深度值，尽管该深度图可以具有不同的分辨率。3D视频数据可以根据本身已知的压缩方法（例如MPEG）而被压缩。任何3D视频系统（诸如，互联网或蓝光盘（BD））可以从所提议的增强获益。

3D显示器可以是相对小的单元（例如移动电话）、需要快门眼镜的大的立体显示器（STD）、任何立体感显示器（STD）、考虑可变基线的先进STD、基于头部跟踪而将L和R视图瞄准观众眼睛的主动STD，或自动立体感多视点显示器（ASD），等等。

传统上，用于驱动各种类型的3D显示器所需的所有分量都被传输，这通常需要对多于一个视图（摄像机信号）及其对应的深度进行压缩和传输，例如如“征集关于3D视频编码技术的提案”（MPEG文档N12036，2011年3月，日内瓦，瑞士）中所讨论的。这样的系统具有的问题是深度信号的可用性（创建起来困难且昂贵）、用于驱动ASD和针对可变基线的先进STD的有限的初始内容可用性，以及传输深度信号所需的额外的比特率。已知在解码器中由其自身进行自动转换（从立体自动导出的深度），例如从“对于苏黎世迪斯尼研究所和弗劳恩霍费尔HHI提出的3D视频编码技术提案的描述”（MPEG文档M22668，2011年11月，日内瓦，瑞士）。然而，不能保证整体质量并且在某些“困难”场景（例如5%的场景）中质量将受到限制。作为在立体视频解码器之后使用的自动转换的替换选择，立体-深度转换器也可以放置在编码器侧，其中能够应用更多处理能力。然而，这不会减少要传送的数据量并且仍然遭受一些困难场景，在这些场景中合成的深度图并不可靠。

图1示出用于处理3D视频数据和显示3D视频数据的系统。被称为3D源设备40的第一3D视频设备提供3D视频信号41并将其传送到被称为3D目的地设备50的另外的3D图像处理设备，该3D目的地设备50被耦合到3D显示设备60，用于传送3D显示信号56。视频信号可以例如是3D电视广播信号，诸如使用1/2 HD帧兼容的标准立体传输、多视点编码（MVC）的或帧兼容的全分辨率（例如如Dolby提议的FCFR）。建立在帧兼容的基本层之上，Dolby开发了增强层以重新创建全分辨率3D图像。该技术已经被提议到MPEG以标准化并且仅要求增加约10%的比特率。如下面所阐明的，传统的3D视频信号被深度辅助数据增强。

图1还示出作为3D视频信号的载体的记录载体54。该记录载体为圆盘形状并且具有轨道和中央孔。轨道由物理可检测标记的图案构成，被按照螺旋形或同心图案的卷线（turn）而布置，这些卷线在一个或多个信息层上构成基本上平行的轨道。记录载体可以是光学可读的，被称为光盘，例如DVD或BD（蓝光盘）。信息由沿着轨道的光学可检测的标记（例如凹陷和平台（land））体现在信息层上。轨道结构还包括位置信息，例如头部和地址，用于指示通常被称为信息块的信息单元的位置。记录载体54承载表示被数字地编码的3D图像数据（比如例如按照MPEG2或MPEG4编码系统而被编码、预定义记录格式（比如DVD或BD格式）的视频）的信息。

3D源设备具有用于处理经由输入单元47接收的3D视频数据的源深度处理器42。输入3D视频数据43可以从存储系统、记录演播室，从3D摄像机等等而可获得。源系统处理为3D图像数据提供的深度图，该深度图可以是在系统的输入处原始存在的，或者可以是由如下描述的高质量处理系统例如从立体（L+R）视频信号中的左/右帧或从2D视频自动生成的，并且可能被进一步处理或校正以提供源深度图，该源深度图准确地表示对应于附随的2D图像数据或左/右帧的深度值。

源深度处理器42生成包括3D视频数据的3D视频信号41。3D视频信号具有表示3D显示器上的左眼视图的第一视频信息和表示3D显示器上的右眼视图的第二视频信息。源设备可以被布置用于将3D视频信号经由输出单元46从视频处理器传送到另外的3D视频设备，或者用于提供3D视频信号以用于分发（例如通过记录载体）。3D视频信号基于对输入3D视频数据43的处理，例如通过按照预定义格式对3D视频数据进行编码和格式化。

3D源设备具有用于基于第一和第二视频信息来生成源生成深度图的源立体-深度转换器48和用于提供深度辅助数据的源深度处理器42。

在运行时，用于生成深度图的立体-深度转换器接收具有左帧L和右帧R的时间序列的立体3D信号（也被称为左-右视频信号），该左帧L和右帧R表示为观众的相应眼睛而显示以生成3D效果的左视图和右视图。该单元通过对左视图和右视图进行视差估计而产生所生成的深度图，并且可以基于左视图和/或右视图而进一步提供2D图像。视差估计可以基于用于比较L和R帧的运动估计算法。依赖于对象的L和R视图之间的大的差异的方向，该差异被转换成在显示屏幕之前方或之后的深度值。生成器单元的输出为所生成的深度图。随后，在检测到深度差错之处（即仅当源深度图与所生成的深度图之间的差异超过预定阈值时）生成深度辅助数据。举例来说，预定的深度差异可以构成所述阈值。还可以使得该阈值依赖于影响深度差错的可视性的另外的图像属性，例如局部图像亮度或对比度，或纹理。该阈值还可以通过检测所生成的深度图的质量水平来确定，如下所述。所生成的深度图被用于扭曲（warp）具有对应于给定的不同视图的取向的视图。举例来说，R’视图是基于原始的L图像数据和所生成的深度图。随后计算R’视图与原始R视图之间的差异，例如通过公知的PSNR函数（峰值信噪比）。PSNR是信号的最大可能功率与影响其表示的保真度的损坏噪声的功率之比。因为许多信号具有非常宽的动态范围，所以PSNR通常以对数分贝刻度表示。PSNR现在可以被用作对于所生成的深度图的质量的测度。在这种情况下信号是原始数据R，并且噪声是通过基于所生成的深度图来扭曲R’而引入的差错。此外，还可以基于另外的可视性准则，或者由编辑者创作或审阅基于所生成的深度图的结果并且控制3D视频的哪些部分和/或时期需要由深度辅助数据扩充，来判断该阈值。

深度辅助数据表示源深度图，例如在所述深度差错的位置处的源深度图的深度值。可替换地，深度差异或深度校正因子可以被包括在深度辅助数据中以指示目的地设备如何得出源深度图的深度值。输出单元46被布置用于将深度辅助数据包括在3D视频信号中。深度处理器42、立体-深度转换器48和输出单元46的功能的处理器可以被称为3D编码器。

3D源可以是服务器、广播方、记录设备，或用于制造比如蓝光盘的光学记录载体的创作和/或生产系统。蓝光盘提供用于为内容创作者分发视频的交互平台。关于蓝光盘格式的信息从蓝光盘联盟的网站在关于音视频应用格式的论文（例如http://www.blu-raydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisual-

-application_0305-12955-15269.pdf）中可获得。光学记录载体的生产过程还包括以下步骤：在轨道中提供标记的物理图案，该图案体现包括深度辅助数据的3D视频信号，并且随后按照该图案使记录载体的材料成形以在至少一个存储层上提供标记的轨道。

3D目的地设备50具有用于接收3D视频信号41的输入单元51。举例来说，该设备可以包括光盘单元58，该光盘单元58被耦合到输入单元以用于从光学记录载体54（比如DVD或蓝光盘）恢复3D视频信息。可替换地（或附加地），该设备可以包括网络接口单元59以用于耦合到网络45，例如互联网或广播网络，这样的设备为机顶盒或移动计算设备（比如移动电话或平板电脑）。3D视频信号可以从远程网站或媒体服务器（例如3D源设备40）来恢复。3D图像处理设备可以是将图像输入信号转换成具有所要求的深度信息的图像输出信号的转换器。这样的转换器可以被用于将针对具体类型的3D显示器的不同输入3D视频信号（例如标准3D内容）转换成适合特定类型或供应商的自动立体感显示器的视频信号。实际上，该设备可以是3D光盘播放器，或卫星接收机或机顶盒，或任何类型的媒体播放器。

3D目的地设备具有深度处理器52，该深度处理器52被耦合到输入单元51用于处理3D信息以生成要经由输出接口单元55而被传送到显示设备的3D显示信号56，例如根据HDMI标准的显示信号，参见“高清晰度多媒体接口；2010年3月4日的说明书版本1.4a”，其3D部分在供公开下载的http://hdmi.org/manufacturer/specification.aspx可以获得。

3D目的地设备具有用于基于第一和第二视频信息而生成目的地生成的深度图的立体-深度转换器53。该立体-深度转换器的操作与前面描述的源设备中的立体-深度转换器等同。当两个转换器相等同时，将发生相同的深度差错，该差错通过深度辅助数据可校正。如果目的地立体-深度转换器被进一步改进，即至少与源立体-深度转换器一样良好工作，则当无辅助数据可用时最终的目的地深度图将受益。具有目的地深度处理器52、立体-深度转换器53和输出单元55的功能的单元可以被称为3D解码器。

目的地深度处理器52被布置用于生成3D显示信号56中包括的图像数据以用于在显示设备60上显示。深度处理器被布置为当3D视频信号中没有深度辅助数据可用时基于目的地生成的深度图，并且当3D视频信号中有深度辅助数据可用时基于该深度辅助数据，来生成目的地深度图。举例来说，深度开关可以用深度辅助数据提供的深度值（在可用的情况下）取代目的地生成的深度图的深度值。下面进一步阐明深度辅助数据的处理。

3D显示设备60用于显示3D图像数据。该设备具有输入接口单元61，该输入接口单元61用于接收从3D目的地设备50传送的、包括3D视频数据和目的地深度图的3D显示信号56。该设备具有用于依赖于目的地深度图基于第一和第二视频信息来生成3D视频数据的多个视图的视图处理器62，和用于显示该3D视频数据的该多个视图的3D显示器63。所传送的3D视频数据在处理单元62中被处理以用于在3D显示器63（例如多视点LCD）上显示。显示设备60可以是任何类型的立体感显示器（也被称为3D显示器）。

3D显示设备60中的视频处理器62被布置用于处理3D视频数据以生成用于呈现多个视图的显示控制信号。使用目的地深度图而从3D图像数据生成这些视图。可替换地，3D播放器设备中的视频处理器52可以被布置成施行所述深度图处理。可以利用3D图像信号而朝向所述3D显示器传送为指定3D显示器生成的多个视图。

在另外的实施例中，目的地设备和显示设备被合并成单个设备。深度处理器52和处理单元62的功能，以及输出单元55和输入单元61的剩余功能，可以由单个视频处理器单元施行。

图2示出使用深度辅助数据的3D解码器。3D解码器20被示意性地显示为具有用于被标记为BS3（基本信号3D）的3D视频信号的输入。输入解复用器21（DEMUX）恢复来自左和右视图的比特流（LR-bitstr）和来自深度辅助数据的比特流（DH-bitstr）。第一解码器22（DEC）解码左和右视图到输出L和R，其还被耦合到消费者类型的立体-深度转换器（CE-S2D），该转换器生成被称为目的地生成的深度图的左深度图LD1和右深度图RD1。第二解码器23解码DH-bitstr并在深度辅助数据可用的情况下提供左辅助深度图LD2和右辅助深度图RD2。深度开关DEPTH-SW 25例如基于指示深度辅助数据的存在的标志而选择目的地生成的深度图（LD1/RD1）或者左辅助深度图LD2和右辅助深度图RD2。

3D解码器可以是在消费者侧的机顶盒（STB）的一部分，其接收符合深度辅助系统（BS3）的比特流，该比特流被解复用成2个流：一个具有L和R视图的视频流，和一个具有深度辅助（DH）数据的深度流，这两个流随后都被发送到相应的解码器（例如MVC/H264）。本地标志被导出并用于在所解码的DH深度（LD2/RD2）和（由CE-S2D）本地生成的深度值（LD1/RD1）之间切换。取决于显示器的类型，3D解码器的最终输出（LD3/RD3）随后被传送到如随着图4或5讨论的视图扭曲块。

图3示出提供深度辅助数据的3D编码器。3D编码器30被示意性地示为具有用于接收3D视频信号的输入（L，R）。立体-深度转换器（例如高质量专业类型HQ-S2D）生成被称为源生成的深度图的左深度图LD4和右深度图RD4。另外的输入接收源深度图（被标记为LD-man，RD-man），其可以被离线地提供（例如手动编辑或改进），或者可以随着输入3D视频信号而可获得。深度开关单元32接收源生成的深度图LD4、RD4和源深度图LD-man和RD-man两者，并确定源深度图与所生成的深度图之间的差异是否超过预定阈值。如果是，则深度开关生成深度辅助数据LD5、RD5。深度开关可以选择深度图中的一个。该选择还可以基于指示这样的差异的外部信号（被标记的标志），该信号可以由输出多路复用器35（MUX）包括在输出信号中作为辅助信令数据。该多路复用器还从第一编码器33接收被编码的视频数据（BS1）并从第二编码器34接收被编码的深度辅助数据（BS2），并且生成被标记为BS3的3D视频信号。

在3D编码器中，输出单元可以被布置用于仅针对校正时段而将深度辅助数据包括在3D视频信号中，在该校正时期内时，所述差异超过所述阈值。此外，输出单元可以被布置用于仅针对小于3D显示器的校正区域而将深度辅助数据包括在3D视频信号中，在该校正区域中时所述差异超过所述阈值。举例来说，提供深度辅助数据的深度图为：（i）完整帧；（ii）部分存在；或（iii）不存在。深度图也可以仅存在于某些帧或GOP中。另外，也可以包括完整帧深度图，只不过分配特定的亮度值（例如0x00或0xFF）以意味着“无深度辅助信息”。这样的图可以以后向兼容的方式被编码。另外，深度辅助数据及其帧位置可以被存储在表或其他数据结构中，在用户数据或一些其他流中传输。

编码器具有以下效果。被称为深度辅助数据的深度信息在时间上（时间上的部分深度）和/或空间上（帧内的部分深度）被部分地传输。包括有显式或隐式的机制用于指示这些部分深度何时要被使用或者这些深度何时必须在本地被自动地生成。显式机制可以是通过将标志插入比特流中，而隐式机制可以是通过惯例：不存在深度辅助数据本身指示必须生成本地深度。

在实施例中，在深度图中可以给一定的深度水平LEV（例如黑色水平0或白色水平255）分配无DH深度被传输的含义。这样的无深度值物理地存在于深度值的位置处，这具有一些实际的优点，例如保持视频和深度同步。

另外，这样的信令允许对深度辅助数据进行“空间”指示，因而不仅时间上部分而且空间上也部分（即在帧内只有部分）。举例来说，深度差错可以存在于特定镜头的帧内的本地生成的深度图的一些部分中。在那种情况下，除了本地生成的深度不足的像素之外，深度辅助数据可以被设置位于无深度水平LEV。

可能发生深度差错的示例是内容中一直存在并且越过镜头边界的logo。通常视差到深度的映射对于每个镜头是不同的，而通常logo的视差是恒定的。本地生成的深度可能是错误的，从而使得logo的深度越过镜头而随时间变化。由于ASD的本性，这还可能甚至导致某种程度的变化的模糊效果，人眼对此非常敏感。然而，仅对于与logo对应的那些深度像素可用（即在非LEV值处）的深度辅助数据使得能够将logo深度设置成固定且合适的水平。因此，克服了这样的质量问题。深度图的值为非LEV将被解释为标志并且对于那些像素，深度输出（LD3/RD3）将从本地生成的深度LD1/RD1切换到深度辅助数据LD2/RD2。

立体-深度转换器模块S2D（CE-S2D或HQ-S2D）将标准的可用立体信号转换成一个或两个对应的深度信号，其行为是已知的（并且是固定的）。有利地，特别选择具体的立体-深度转换器作为标准3D格式的一部分。因此，就可以使得在解码器侧的立体-深度转换器与在编码器侧的立体-深度转换器相等同。这允许在编码器侧对解码器中的S2D模块CE-S2D进行质量控制。如果最终证明例如对于给定镜头（新场景或“一次性拍摄镜头（take）”的开头），在ASD上呈现之后的质量不足（这通常是仅仅偶尔发生的事情，比方说5%的镜头），则深度辅助数据仅针对那些镜头而被创建并传输。这不仅确保了整体质量，而且限制了创建内容的成本，同时节省了要传输的比特。

注意，深度辅助数据的原理可以应用于每个3D视频传送步骤，例如在演播室或作者与广播方之间，该广播方对当前增强的深度图进行编码以传输到消费者。另外，可以在连续的传送上执行深度辅助数据系统，例如通过包括基于进一步改进的源深度图的第二深度辅助数据，可以在初始版本上创建进一步改进的版本。这在3D显示器上可达到的质量、传输深度信息所需要的比特率或用于创建3D内容的成本方面提供了很好的灵活性。

在实施例中，深度辅助数据可以采用以下形式。3D视频信号包括对应于3D显示器上的显示区域的深度图。所述深度图具有针对校正区域和/或校正时期的深度辅助数据。此外，预定义的无深度值指示针对其他区域和/或时期对于对应位置不存在深度辅助数据。

在实施例中，深度图可以包括对应于左视图的深度数据、对应于右视图的深度数据，和/或对应于中央视图的深度数据中的至少一个。另外，深度数据可以具有低于第一视频信息或第二视频信息的分辨率。

深度处理器可以被布置用于生成针对校正区域的深度辅助数据从而使得所述校正区域对齐于3D视频信号中的至少一个宏块。该宏块表示压缩视频数据（例如在MPEG编码视频信号中）的预定块。

该宏块对齐的校正区域可以包括针对源深度图与第二生成深度图之间的差异不超过预定阈值的位置的另外的深度数据。这样的校正区域还包含像素，对于这些像素，第二生成深度图和源深度图的深度值小且低于该阈值。另外的深度数据可以基于第二生成深度图以避免在该宏块对齐的校正区域的外部边界处的深度跳跃。使得该另外的深度校正值等于所生成的值，将在解码器侧避免跨宏块的深度差异变得可见。

在实施例中，3D视频信号包含信令辅助数据。该信令辅助数据指示深度辅助数据的可用性。信令辅助数据可以采用以下各项中的至少一个的形式。标志信号可以指示深度辅助数据的存在。深度图中预定义的无深度值可以指示对于对应位置不存在深度辅助数据。辅助长度数据可以指示数据结构中深度辅助数据的量。视图指示符数据可以指示深度辅助数据可用的多个视图和/或视图的类型。辅助类型数据可以指示用于深度辅助数据的数据结构或数据格式。辅助分辨率数据可以指示深度辅助数据的分辨率。辅助位置数据可以指示深度辅助数据的位置。

注意，深度辅助数据意图帮助/校正自动生成的深度图中在呈现之后可能在输出中引起差错的那些区域。深度图的未使用区域可以由单个亮度值指示。这个值我们称为NoDH。

其他信令参数可以针对深度辅助数据而被传送（一个或多个，包括各种组合），它们是：

1．深度数据解释

a．Zfar，znear（最接近和最远的深度值），

b．znear_sign（指示如何解释znear值，0为正，1为负），

c．znear_exponent（用于扩展成深度值的更高保真度）

d．num_of_views（存在深度信息的视图的数目）。

2．用于辅助呈现以从深度辅助数据得到最佳结果的具体处理信令。该信令将由与所定义的表中使用的信令相一致的数字组成。

a．DH数据中使用的分级（scaling）类型、用于分级的算法种类，双线性、双三次等等。

b．深度信息中的边缘类型。这将由指示一定类型的边缘以通过从深度辅助数据得到最大结果而辅助呈现的表组成。例如Sharp、Fuzzy、Soft等等

c．用于生成深度辅助数据的算法。呈现系统将能够解释这个值并且从其推断如何呈现深度辅助数据。

手动、来自聚焦的深度、来自视角的深度、来自运动的深度、方式的组合，等等，等等。

除了前面列出的表条目值之外，如下的附加实值：

d．在深度数据中的对象的边界处使用的膨胀（dilation）的量，从0到128

e．包含无深度辅助数据的深度图像数据中的亮度值。NoDH为0到255之间的值。为了最小化边缘处的比特率，在例如8x8或16x16处必须块对齐，对应于深度视频流的宏块尺寸。

在视频基本流中，优选地传输深度数据解释（1）和用于呈现的具体处理信令（2）两者以使它们被包含在视频信号中。对于深度数据解释的传输，已经提议为此定义被称为深度范围更新（depth range update）的新的nal单元类型。

对于具体处理信令，当解释深度辅助数据时也需要使用数据，我们提议在NAL单元中承载该信令，该NAL单元形成承载深度辅助数据的视频流的一部分。为此我们可以利用我们定义为Rendering_Depth_Helper数据的表来扩展depth_range_update nal单元。

可替换地，就像视频基本流中也承载的那些表一样，下面的表可以被承载在SEI消息中。

下面是示出具有所示数据的nal单元的一部分的示例的表。

表1：呈现深度辅助数据

Rendering_depth_helper_datat{	比特
		Type_of_scaling	4
Type_of_edge	4
		Depth_algorithm	4
Dilation	7
		No_Depth_Helper_value	8
Reserved	5
		}

Type_of_scaling	使用的分级方法
		1	双线性
2	双三次
		3	等等

Type_of_edges	边缘类型
		1	Sharp（尖锐）
2	Fuzzy（模糊）
		3	Soft（柔和）
4	等等

Type_of_depth_algo	使用的深度算法
		1	手动
2	来自运动的深度
		3	来自聚焦的深度
4	来自视角的深度
		5	等等

在实施例中，3D视频信号被格式化以包括被编码的视频数据流并被布置用于根据预定义标准（例如BD标准）来传递解码信息。根据该标准，3D视频信号中的信令辅助数据作为解码信息被包括在用户数据消息、信令基本流信息[SEI]消息、入口点表或基于XML的描述中的至少一个中。

图4示出自动-立体显示设备和生成多个视图。自动-立体显示器（ASD）403接收由深度处理器400生成的多个视图。深度处理器具有用于从完整的左视图L和目的地深度图LD3生成一组视图405（如该图的较低部分所示）的视图扭曲单元401。显示输入接口406可以根据HDMI标准被扩展以传送RGB和深度（RGBD HDMI），并包括完整的左视图L和基于深度辅助数据HD的目的地深度图LD3。所生成的视图经由交错单元402传送到显示器403。目的地深度图可以由深度后处理器Z-PP 404进一步处理。

图5示出双视图立体显示设备和生成增强视图。双视图立体显示器（STD）503接收由深度处理器501生成的两个增强视图（new_L，new_R）。深度处理器具有用于从原始的完整左视图L和完整R视图以及目的地深度图（如该图的较低部分所示）生成增强视图的视图扭曲功能。显示输入接口502可以根据HDMI标准被扩展以传送视图信息IF（HDMI IF）。新的视图相对于显示期间的指示基线（BL）的参数BL而被扭曲。3D视频材料的基线最初是L和R摄像机位置之间的有效距离（针对光学、缩放因子等等而被校正）。当显示材料时，该基线将由显示配置（诸如尺寸、分辨率、观看距离或观众偏好设置）来有效地转变。为了在显示期间改变基线，可以通过扭曲被称为new_L和new_R的新视图来移动L和R视图的位置，形成可以大于（>100%）或小于（<100%）原始基线的新的基线距离。新的视图相对于处于BL=100%的原始完整L和R视图被移出或移入。第三个示例（0%<BL<50%）使得两个新视图都基于单个视图（Full_L）而被扭曲。对靠近完整视图的新视图进行扭曲避免了扭曲伪像。通过三个示例，示出被扭曲的新视图与原始视图之间的距离小于25%，同时实现了0%<BL<150%的控制范围。

图6示出3D视频信号中深度辅助数据的存在。在该图中向上的箭头表示视频节目中新的镜头的开始时间（t1，t2，等等）。在开始于t3和t6的镜头期间，深度辅助数据LD4和RD4被生成，如变高的标志信号所示。该图图示出仅针对校正时段而将深度辅助数据包括在3D视频信号中，在该校正时期内时，所述差异超过阈值，即在本地生成的深度图中深度差错作为干扰是可见的。

尽管已经通过使用消费者类型的目的地设备的实施例大体上解释了本发明，但是本发明也适合任何3D视频系统。总之，提出了用于朝向各种类型的3D显示器传输3D数据的混合传输/自动转换3D格式和方案。深度信息（“深度”）在时间上（时间上的部分深度）和/或空间上（帧内的部分深度）被部分地传输。有显式或隐式的机制用于指示这些部分深度何时要被使用或者这些深度何时必须在本地被自动地生成。该混合原理可以应用于消费者侧和/或广播方侧，这在3D显示器上可达到的质量、传输深度信息所需要的比特率或用于创建3D内容的成本方面提供了很好的灵活性。

应当注意，本发明可以使用可编程组件而以硬件和/或软件实现。用于实现本发明的方法具有与为参考图1而描述的系统定义的功能相对应的步骤。

应当理解，出于清楚起见，前面的描述引用不同功能单元和处理器而描述了本发明的实施例。然而，显而易见的是，可以使用在不同功能单元或处理器之间的、功能的任何合适分布而不偏离本发明。举例来说，被图示为由分立的单元、处理器或控制器施行的功能可以由同一处理器或控制器施行。因此，对具体功能单元的引用应当仅被视为对于合适的装置的引用以提供所描述的功能而非指示严格的逻辑或物理结构或组织。本发明可以以任何合适的形式实现，包括硬件、软件、固件及其任意组合。

注意，在本文档中，词语“包括”不排除除了所列出的元件或步骤以外的其他元件或步骤的存在并且元件之前的词语‘一’或‘一个’不排除多个这样的元件的存在；任何参考符号不限制权利要求的范围；本发明可以借助于硬件和软件两者实现；以及若干‘装置’或‘单元’可以由硬件或软件的相同项目表示，并且处理器可以完成一个或多个单元的功能，有可能是与硬件元件协作。另外，本发明不限于实施例，并且本发明在于前面描述的或在彼此不同的从属权利要求中记载的每个和每项新颖特征或特征的组合。

Claims

1.用于提供3D视频信号（41）以传送到3D目的地设备（50）的3D源设备（40），

所述3D视频信号包括：

-第一视频信息，表示3D显示器上的左眼视图；

-第二视频信息，表示所述3D显示器上的右眼视图；

所述3D目的地设备包括：

-接收机（51，58，59），用于接收所述3D视频信号；

-立体-深度转换器（53），用于基于所述第一和第二视频信息来生成第一生成深度图，

所述3D源设备包括：

-输出单元（46），用于生成3D视频信号，并且用于将所述3D视频信号传送到所述3D目的地设备，

其中，

所述3D源设备被布置用于：

-提供与所述视频信息相关的源深度图，并且

所述3D源设备包括：

-源立体-深度转换器（48），用于基于所述第一和第二视频信息来生成第二生成深度图，以及

-源深度图处理器（42），被布置用于仅当所述源深度图与所述第二生成深度图之间的差异超过预定阈值时才提供深度辅助数据，所述深度辅助数据表示所述源深度图，并且所述输出单元被布置用于将所述深度辅助数据包括在所述3D视频信号中，并且所述3D目的地设备包括深度处理器（52），用于：

-当所述3D视频信号中无深度辅助数据可用时基于所述第一生成深度图并且当所述3D视频信号中深度辅助数据可用时基于所述深度辅助数据，来生成目的地深度图。

2.如权利要求1中要求保护的3D源设备，其中所述输出单元被布置用于当在校正时段内所述差异超过所述阈值时，仅针对校正时段而将所述深度辅助数据包括在所述3D视频信号中；和/或

其中所述输出单元被布置用于当在校正区域中所述差异超过所述阈值时，仅针对小于所述3D显示器的校正区域而将所述深度辅助数据包括在所述3D视频信号中。

3.如权利要求2中要求保护的3D源设备，其中所述深度处理器被布置用于针对校正区域来生成所述深度辅助数据，以使所述校正区域对齐于所述3D视频信号中的至少一个宏块，该宏块表示压缩视频数据的预定块，该宏块对齐的校正区域包括针对所述源深度图与所述第二生成深度图之间的差异不超过预定阈值时的位置的另外的深度数据。

4.如权利要求1中要求保护的3D源设备，其中所述输出单元被布置用于将信令辅助数据包括在所述3D视频信号中，该信令辅助数据指示所述深度辅助数据的可用性。

5.如权利要求2中要求保护的3D源设备，其中所述输出单元被布置用于将信令辅助数据包括在所述3D视频信号中，该信令辅助数据指示所述深度辅助数据的可用性。

6.如权利要求3中要求保护的3D源设备，其中所述输出单元被布置用于将信令辅助数据包括在所述3D视频信号中，该信令辅助数据指示所述深度辅助数据的可用性。

7.如权利要求4-6中任一项要求保护的3D源设备，其中所述信令辅助数据包括以下各项中的至少一个：

-标志信号，指示所述深度辅助数据的存在；

-辅助长度数据，指示数据结构中深度辅助数据的量；

-辅助类型数据，指示用于所述深度辅助数据的数据结构；

-辅助分辨率数据，指示所述深度辅助数据的分辨率；

-辅助位置数据，指示所述深度辅助数据的位置。

8.如权利要求5或6中要求保护的3D源设备，其中所述输出单元被布置用于将对应于所述3D显示器上的显示区域的深度图包括在所述3D视频信号中，该深度图包括针对所述校正区域和/或所述校正时段的所述深度辅助数据，并且，作为所述信令辅助数据，预定义的无深度值指示针对其他区域和/或时段对于对应位置不存在深度辅助数据。

9.用于从3D源设备接收3D视频信号的3D目的地设备（50），

所述3D视频信号包括：

-第一视频信息，表示3D显示器上的左眼视图；

-第二视频信息，表示所述3D显示器上的右眼视图；

所述3D目的地设备包括：

-接收机，用于接收所述3D视频信号；

-立体-深度转换器，用于基于所述第一和第二视频信息来生成第一生成深度图，

其中，

所述3D源设备被布置用于：

-提供与所述视频信息相关的源深度图，并且

所述3D源设备包括：

-源立体-深度转换器，用于基于所述第一和第二视频信息来生成第二生成深度图，

-源深度图处理器，被布置用于仅当所述源深度图与所述第二生成深度图之间的差异超过预定阈值时才提供深度辅助数据，所述深度辅助数据表示所述源深度图，以及

-输出单元，被布置用于将所述深度辅助数据包括在所述3D视频信号中，并且

所述3D目的地设备包括深度处理器，用于：

10.如权利要求9中要求保护的目的地设备，其中所述接收机包括用于读取记录载体以接收所述3D视频信号的读取单元（58）。

11.如权利要求9中要求保护的目的地设备，其中所述设备包括：

-视图处理器，用于依赖于所述目的地深度图基于所述第一和第二视频信息来生成所述3D视频数据的多个视图；

-3D显示器（63），用于显示所述3D视频数据的所述多个视图。

12.提供3D视频信号以传送到3D目的地设备的方法，

所述3D视频信号包括：

-第一视频信息，表示3D显示器上的左眼视图；

-第二视频信息，表示所述3D显示器上的右眼视图；

所述3D目的地设备包括：

-接收机，用于接收所述3D视频信号；

所述方法包括：

-生成所述3D视频信号，并且将所述3D视频信号传送到所述3D目的地设备，

其中所述方法包括：

-提供与所述视频信息相关的源深度图，

-基于所述第一和第二视频信息来生成第二生成深度图，

-仅当所述源深度图与所述第二生成深度图之间的差异超过预定阈值时才提供深度辅助数据，所述深度辅助数据表示所述源深度图，以及

-将所述深度辅助数据包括在所述3D视频信号中，并且

所述3D目的地设备包括深度处理器，用于：

13.如权利要求12中要求保护的方法，其中所述方法包括制造记录载体的步骤，所述记录载体被提供有表示所述3D视频信号的标记的轨道。

14.用于提供3D视频信号以传送到3D目的地设备的装置，

所述3D视频信号包括：

-第一视频信息，表示3D显示器上的左眼视图；

-第二视频信息，表示所述3D显示器上的右眼视图；

所述3D目的地设备包括：

-接收机，用于接收所述3D视频信号；

所述装置包括：

-用于生成所述3D视频信号并且将所述3D视频信号传送到所述3D目的地设备的构件，

其中所述装置包括：

-用于提供与所述视频信息相关的源深度图的构件，

-用于基于所述第一和第二视频信息来生成第二生成深度图的构件，

-用于仅当所述源深度图与所述第二生成深度图之间的差异超过预定阈值时才提供深度辅助数据的构件，所述深度辅助数据表示所述源深度图，以及

-用于将所述深度辅助数据包括在所述3D视频信号中的构件，并且

所述3D目的地设备包括深度处理器，用于：