CN102232294B

CN102232294B - 用于呈现具有内容自适应信息的三维动态影像的方法和系统

Info

Publication number: CN102232294B
Application number: CN200980148390.4A
Authority: CN
Inventors: 张宁; S·周; 周敬秦; T·贝里克
Original assignee: Imax Corp
Current assignee: Imax Corp
Priority date: 2008-12-01
Filing date: 2009-12-01
Publication date: 2014-12-10
Anticipated expiration: 2029-12-01
Also published as: US20110242104A1; CN102232294A; CA2743569C; EP2356818A1; JP5577348B2; CA2743569A1; RU2546546C2; WO2010064118A1; US9013551B2; JP2012510750A; RU2011126983A; EP2356818B1

Abstract

本发明总体上涉及用于生成自适应于图像内容的3D影片字幕的方法和系统，以改进观众体验。本发明的某些实施方式涉及在可变的、依赖于场景的深度处定位字幕。本发明的特定方面可以适用于一般的3D显示应用和/或3D影片的数字投影。

Description

用于呈现具有内容自适应信息的三维动态影像的方法和系统

相关申请的交叉引用

本申请要求2008年12月1日提交的美国临时专利申请序列号61/200,725的优先权，该申请的名称为“Methods and Systems forPresenting Three-Dimensional Motion Pictures with Content AdaptiveThree-Dimensional Subtitles”，通过引用将其全部内容引入于此。

技术领域

本公开总体上涉及三维(3D)图像处理，更具体地，涉及基于三维图像的内容来处理图像，从而与三维图像一起显示诸如字幕的附加信息。

背景技术

字幕是以文字的形式表示影视动态影像中的对话及其他音效内容，该文字形式通常已经从影片原始版本的语言被翻译成一种不同的语言。字幕也包括用来辅助听力受损观众而描述对话和音效的字幕。这种字幕文本可以在屏幕上与画面同时显示也可以分别显示。而本文所用的“字幕”这个术语是指在画面屏幕上同时显示的任何文本或者图形。字幕是一种可能在画面上同时显示的“附加信息”。字幕是在屏幕上显示，以便帮助观众理解影片中的对话，比如对话是用观众听不懂的语言进行的，或者某些观众在听力方面有困难，而字幕通常是显示在在屏幕的底部，。

通常字幕是以某种字幕文件的形式来接收，而该文件包含影片的字幕元素。字幕元素可以包括字幕文本以及时序信息，该时序信息指示字幕文本何时应当在屏幕上出现和消失。通常，时序信息是基于时间码或者其他等效信息，诸如胶片长度(例如，以英尺和帧为单位来衡量)。字幕文件还可以包括描述字幕应当如何在屏幕上显示的其他特性，诸如文本字体、文本颜色、字幕在屏幕上的定位以及排列对准信息。传统的字幕显示系统从字幕文件解译这些信息，将字幕元素转换至图形化表示，并且根据字幕文件中的信息将字幕图形与图像同步地显示在屏幕上。传统字幕显示系统的功能可以用数字影院服务器来承担，它将经过转换的字幕叠加在图像上以便由数字投影机来显示。

一部三维(3D)影片的显示是通过立体3D显示系统将立体3D图像按一定顺序来显示而执行的。一幅3D图像包括一幅左眼图像和一幅对应的右眼图像，两幅图像是从略微不同的视角表示同一场景，类似于人的双眼看到的两个不同的视角。该左眼图像与右眼图像之间的差异称为双眼像差(disparity)，双眼像差通常与“像差”可以互换地使用。像差可以指左眼图像中的像素与对应右眼图像中的对应像素之间的水平位置差异。像差可以用像素的数目来计量。与像差类似的概念是“视差(parallax)”，是指当显示在屏幕上时此对应像素对之间的水平位置距离。视差可以通过距离量度(诸如，以英尺为单位)来计量。通过考虑显示屏幕的尺寸，视差的值就可以与3D图像数据中的像素像差的值相关连。一部3D影片包括多个左眼图像序列和对应的右眼图像序列。3D显示系统可以确保将左眼图像序列呈现给观众的左眼，而将右眼图像序列呈现给观众的右眼，从而产生深度知觉。在3D图像帧中某一像素的深度知觉可以由所显示的左眼图像和右眼图像的对应像素对之间的视差的量来确定。视差较强的3D图像或者像差值较大的3D图像会显得在距离上比较接近观众。

在3D影片中提供字幕或者其他附加信息的一种方法是使用传统的字幕显示系统将单像版本的字幕图像显示在屏幕上供左眼和右眼同时观看，结果是将字幕置于屏幕的深度处。当具有强视差的3D图像与单像版本的字幕一起呈现时，观众可能难以读取出现在图像深度处之后的字幕，这是由于观众的眼睛无法同时将处于某一深度处的图像以及处于不同深度处的字幕融合在一起。

在图1中绘出了使用传统方法显示的3D图像及字幕。所显示的3D图像包括一个主物体106，它具有从屏幕102往外跃出的表观深度。单像字幕文本108具有屏幕处的表观深度。当佩戴3D眼镜104的观众注视主物体106时，此观众可能将主物体106之后的字幕108视为两个图像110和112。观众可能难以在观看3D图像同时阅读该字幕文本。这一问题对于在大屏幕3D影院场所(诸如IMAX3D影院)的观众尤其令人不快，因为相对于较小的3D剧院，大屏幕3D影院呈现的3D图像具有较强视差，带来更强的沉浸感并且在距离上更接近观众。

尽管这个问题是针对字幕讨论的，但是与3D图像一起显示3D图像以外的任何信息都可以经历在此讨论的这样或者那样的问题。

用于利用传统字幕显示系统为3D影片显示字幕的另一方法是将单像版本的字幕显示在靠近屏幕顶部的位置。此类方法降低了观众观看的不适，这是由于在大多数3D场景中，靠近图像帧顶部的图像内容通常比靠近图像帧底部的图像内容具有更大的距离深度值。例如，靠近图像顶部的图像内容通常包括呈现为远离场景中其他物体的天空、云朵、建筑的屋顶或者山川等。这些类型的内容的深度通常接近屏幕深度或者在屏幕深度之后。当字幕附近的图像内容远离或甚至在屏幕深度之后时，观众可以比较容易地读取单像版本的字幕。然而，如果靠近屏幕顶部的图像内容具有比较近距离的表观深度时，观众也会体验到困难。此外，观众可能发现，连续地注视图像顶部以便读取字幕或者图像的其他附加信息是不方便的。

由此，期望能有这样的系统和方法，其可以将字幕或者其他附加信息与3D图像一起显示在显示器上并具有可接受的深度或者其他位置。

此外，尽管可以使用某些现有方法来确定3D图像内容的深度，此类现有方法不能快速和动态地确定3D图像内容的深度。传统的立体匹配方法无法给出精确的互不矛盾的像差结果，这是由于该方法不能适应时变的图像内容。因此，基于传统立体匹配方法计算出来的3D字幕的深度在时间上可能是前后不一致的，从而可以导致观众观看的不适。此外，传统立体匹配方法无法有效和充分可靠地用于自动化和实时计算应用。由此，期望能有一种可以用于快速并且动态地确定3D图像内容深度的系统和方法，使得该深度可用于定位除3D图像内容以外的字幕或其他信息。

发明内容

某些实施方式涉及以立体三维(3D)形式在3D影视呈现中处理和显示字幕，以允许观众以容易和舒适的方式读取图像和字幕。立体3D字幕或者3D字幕可以通过显示具有适当的像差或者视差的左眼字幕图像和右眼字幕图像来实现。

在一个实施方式中，3D字幕的处理是基于3D图像产生内容自适应深度并具有高水平的的计算效率和计算可靠性。

在一个实施方式中，3D字幕的处理是基于以数字影院包(DCP)形式压缩版本的3D图像产生内容自适应深度并具有高水平的的计算效率和计算可靠性。

在一个实施方式中，3D字幕的处理和显示产生内容自适应深度，同时保持所感知的字幕字体大小的一致性。

在一个实施方式中，提供一种3D数字投影系统，用于计算和显示具有内容自适应深度的3D字幕。

在一个实施方式中，3D字幕的处理和显示产生内容自适应深度以及其他内容自适应字幕特性(包括字体样式、字体大小、颜色或者亮度和屏幕定位)。

在一个实施方式中，提供一种3D数字投影系统，用于计算和显示具有内容自适应深度以及其他内容自适应字幕特性(包括，字体样式、字体大小、颜色或者亮度和屏幕定位)的3D字幕。

在一个实施方式中，接收3D图像序列和用于该3D图像序列的字幕文件。字幕文件包括字幕元素和与字幕元素相关联的时序信息。基于时序信息，字幕元素与3D图像序列的某一片段相关联。根据与字幕元素相关联的片段计算概要深度图。基于针对字幕元素的概要深度图计算代表深度。该代表深度被用于确定字幕元素的渲染属性。输出渲染属性。

在一个实施方式中，提供一种显示媒体，用于在该显示媒体上显示图像。显示媒体包括具有可变表观深度的内容的3D图像序列。该显示媒体还包括字幕元素，其表观深度基于3D图像序列的内容的可变表观深度而改变。

上述示意性实施方式并不旨在限制或者限定公开，而是提供辅助理解本公开的示例。其他的实施方式将在详细描述中讨论并进一步描述。通过查阅本说明书或者通过实践所呈现的一个或者多个实施方式，可以进一步理解由一个或者多个不同示例提供的优点。

附图说明

图1示出了在屏幕上显示的具有单像字幕的三维(3D)图像的现有技术表示；

图2示出了根据本发明一个实施方式的在屏幕上显示的具有立体字幕的3D图像的表示；

图3绘出了根据本发明一个实施方式的能够确定用于在屏幕上与3D图像一起显示的立体字幕的渲染属性的系统；

图4绘出了根据本发明一个实施方式的用于计算与3D图像一起显示的立体字幕的方法的流程图；

图5图示了根据本发明一个实施方式的图像概要化过程；

图6图示了根据本发明一个实施方式的垂直采样投影过程；

图7图示了根据本发明一个实施方式的多垂直采样投影过程；

图8图示了根据本发明一个实施方式的多区域图像概要化过程；

图9图示了多区域图像概要化的第二实施方式；

图10图示了根据本发明一个实施方式的概要图像对和概要深度图；

图11绘出了根据本发明一个实施方式的代表深度确定模块的功能框图；

图12示出了根据本发明一个实施方式的3D图像片段的像差分布；

图13示出了根据本发明一个实施方式的3D图像片段的距离时间分布图(distogram)；

图14A是根据本发明一个实施方式的传统字幕文本文件的示例；

图14B是根据本发明一个实施方式的包括代表深度的3D字幕文本文件的示例；

图15图示了根据本发明一个实施方式的时间窗口选择；

图16图示了根据本发明一个实施方式的根据距离时间分布图确定代表深度；

图17A和17B图示绘出了根据本发明一个实施方式的选择性DCP解码；

图18图绘出根据本发明一个实施方式的JPEG2K级别3子带和相应分组；

图19是根据本发明一个实施方式的用于离线内容自适应3D字幕计算系统的功能框图；

图20是根据本发明一个实施方式的用于实时内容自适应3D字幕计算系统的功能框图；以及

图21是根据本发明一个实施方式的字幕化控制器方法的流程图。

具体实施方式

在此公开的本发明的创造性概念的特定方面和实施方式涉及用于根据3D图像的内容在某个位置和深度显示具有附加信息(诸如，字幕)的三维(3D)图像的方法和系统。尽管公开的方法总体上适用于任意类型的3D立体显示系统，这些方法特别适用于具有沉浸感观看环境的3D电影院。

在某些实施方式中，附加信息(字幕)以与所显示的3D图像中的内容相同的深度被显示，或者基于该深度以其他方式而被显示。图2绘出了一个实施方式，字幕元素214的显示深度基于3D图像中的主要图像物体106的深度。通过在基于3D图像内容的深度处显示字幕元素214，观众104可以舒适地同时观看3D图像和读取字幕。此外，如果主要图像物体106的深度有变化，则字幕元素214的深度也将随着主要图像物体106的深度而改变。

字幕元素214的深度设置可以用立体方法通过适当的视差来显示相同字幕元素的左眼视图和右眼视图来提供。以此方式显示的字幕可以称作立体字幕，或者称作3D字幕。字幕的深度设置可能需要的视差量可以通过计算主要图像物体106的深度或者等效地通过计算主要图像物体106的像素像差值来确定。

3D字幕的左眼视图和右眼视图可以通过将字幕元素在屏幕位置水平方向移动来产生。例如，左眼视图的字幕文本可以通过将字幕元素向右水平方向移动10个像素来创建，而字幕文本的对应右眼视图可以通过将字幕元素向左方向移动10个像素来创建。由此，得到的3D字幕在左眼视图和右眼视图之间具有20像素的像差。实际感知到的具有这种像差的字幕元素的深度取决于显示器屏幕大小以及图像分辨率。对于图像宽度为2048像素的2K分辨率图像并且在70英尺宽度的屏幕上显示该图像，具有20像素的像差的字幕元素看起来距离观众为大约14英尺的距离。

字幕可以置于3D图像中距离最近的物体之前为某一固定量的该字幕元素定位处，该固定量可以是固定数目的附加像差。例如，如果最近的图像物体距离观众10英尺，则该字幕元素的位置可以用对于每眼视图分别增加4个附加像素(总计8个像素的附加像差)来放置，这就有效地将字幕置于比图像物体距离更接近观众大约2英尺的位置。由于3D影视的图像展现出不断改变的深度，字幕的深度可以随着图像内容的深度而改变，并且可以保持在距离最近物体之前的图像中的该字幕元素定位处。在某些实施方式中，对于具有2048像素宽度的图像，附加像差可以在1像素至20的像素范围中；而对于具有4096像素宽度的图像，附加像差可以在1像素至40像素的范围中。图像物体的深度可以使用立体匹配方法或者其他适合的方法来计算。

在某些实施方式中，可以使用立体匹配方法来计算3D图像像素的像差。通常，当角色开始讲话时或者在稍后，字幕元素就会出现在屏幕上；而当角色停止讲话时，字幕元素就会消失。字幕元素的平均显示持续时间是数秒，然而在特定环境下可以更长或者更短。在字幕元素的显示期间，多个图像帧被投影至屏幕上，并且这些像素可能包括随时间变化的内容，诸如物体运动、光照变化、场景渐隐以及场景剪辑。

根据本发明的某些实施方式，通过分析与字幕元素的持续时间相对应的时间窗口内的全部3D图像帧，来计算字幕元素的代表深度值。在某一字幕的持续时间内，字幕元素的代表深度值可以是一个常量，也可以逐帧改变。代表深度值可以与该字幕元素相关联，并且成为该字幕元素的代表性数值。字幕元素的实际深度设置可以根据所计算的代表深度值而确定。3D影片中的每个字幕元素可被置于根据代表深度而确定的深度处，而代表深度是自适应于图像内容。

根据某些实施方式的内容自适应的方法可被扩展至其他字幕属性，包括但不限于：字幕字体样式、字体大小、颜色、亮度和屏幕定位。任何类型的字幕属性都可以自适应于图像内容，以增强3D影片的观看体验。某种适当的方法或者某一组适当的图像分析方法可被用于确定所述字幕属性中每一项的设置。

字幕元素的深度设置可以由一种装置通过对3D屏幕上显示的字幕元素的左眼视图和右眼视图的水平位置进行控制来产生。由该装置产生的深度设置可以与所计算的代表深度相同也可以不同。这种差异的一个示例是：该装置可能具有有限的深度范围和深度分辨率。同样的装置还可以控制其他所述内容自适应的字幕属性。

传统字幕的属性可以通过文本形式的字幕文件来提供。由字幕文件提供的一类信息是每个字幕元素的开始时间和结束时间。此类时序信息可被用来确定用于计算字幕元素的深度和其他内容自适应属性的时间窗口。

图3示出了可以用于生成将与3D图像一起显示的3D字幕或者其他信息的系统的一个实施方式。该系统包括具有处理器304的计算设备302，处理器304可以执行存储在计算机可读媒介(诸如存储器306)上的代码以使得计算设备302计算将与3D图像一起显示的字幕属性或者其他信息。计算设备302可以是能够处理数据并执行代码的任何设备，该代码是执行动作的指令集。计算设备302的示例包括台式个人计算机、膝上型个人计算机、服务器设备、手持计算设备和移动设备。

处理器304的示例包括微处理器、专用集成电路(ASIC)、状态机或者其他适合的处理器。处理器304可以包括一个处理器或者任意数目的处理器。处理器304可以经由总线308访问存储在存储器306中的代码。存储器306可以是能够存储代码的任意实体的计算机可读媒介。存储器306可以包括能够向处理器304提供可执行代码的电的、磁的或者光学设备。存储器306的示例包括随机访问存储器(RAM)、只读存储器(ROM)、软盘、压缩光盘、数字视频设备、磁盘、ASIC、配置的处理器或者能够有形地体现代码的其他存储设备。总线308可以是能够在计算设备302的组件之间传输数据的任何设备。总线308可以包括一个设备或者多个设备。

计算设备302可以通过输入/输出(I/O)接口310与附加组件共享数据。I/O接口310可以包括USB端口、以太网端口、串行总线接口、并行总线接口、无线连接接口或者能够允许在计算设备和外围设备/网络312之间传输数据的任何适当接口。外围设备/网络312可以包括键盘、显示器、鼠标设备、触摸屏接口或者能够从用户接收命令以及向计算设备302提供命令的其他用户接口设备/输出设备。其他外围设备/网络312包括互联网、内联网、广域网(WAN)、局域网(LAN)、虚拟私有网络(VPN)或者允许计算设备302与其他组件通信的任何适用的通信网络。

指令可以作为可执行代码存储在存储器306中。指令可以包括由编译器生成的处理器专用的指令、和/或来自以任意适合的计算机编程语言(诸如，C、C++、C#、Visual Basic、Java、Python、Perl、JavaScript和ActionScript)编写的代码的解释程序。指令可以由存储在存储器306中的软件模块生成，并且当由处理器304执行时，可以使得计算设备302执行动作。

软件模块可以包括图像解码模块314、时间窗口选择模块316、图像概要化模块318、概要深度计算模块320、代表深度确定模块322以及渲染属性计算模块324。图像解码模块314可以用于将已编码或者已加密的左眼图像数据和右眼图像数据解码为未压缩和未加密格式。时间窗口选择模块316可以根据字幕文件中的字幕时序信息为每个字幕元素选择3D图像数据的片段。图像概要化模块318可以将每个3D图像片段简化为一对左眼概要图像和右眼概要图像(也就是说，一幅图像产生于左眼图像序列而另一幅图像产生于右眼图像序列)。概要深度计算模块320可以根据左眼概要图像和右眼概要图像来计算概要深度图。代表深度确定模块322可以根据概要深度图来计算字幕元素的代表深度。渲染属性计算模块可以根据例如字幕元素的代表深度和其他图像信息，从而确定字幕元素的渲染属性。

提供此示例性系统配置仅仅是为了示出可用于实现特定实施方式的潜在配置。当然也有可能使用其他配置。

图4示出了根据3D图像内容来计算3D字幕元素的属性的方法。尽管图4示出的方法描述为应用于字幕，但是该方法可以应用于3D图像以外的任何类型的信息。此外，图4是以图3的系统为参考来描述的，然而其他实现也是可能的。

在块402中，3D图像序列由计算设备302接收。3D图像序列可以包括左眼图像序列和与该左眼图像序列相关联的右眼图像序列。在某些实施方式中，3D图像序列作为已编码文件(诸如，数字影院包(DCP)文件或者MPEG2视频文件)被接收。图像解码模块314可以将已编码文件解码至未压缩和未加密文件格式。

在块404中，计算设备302接收字幕文件，该文件包括至少一个与时序信息相关联的字幕元素。时序信息可以对应于3D影片的时序信息。字幕元素可以包括用于与3D图像序列一起显示的文本或其他属性或者任何其他附加信息。

在块406中，计算设备302可以根据时序信息将字幕元素与3D图像序列的片段相关联。时间窗口选择模块316可以根据字幕元素的时序信息从3D序列选择图像片段。在某些实施方式中，时间窗口选择模块316可以跳过与字幕无关的图像序列的部分而通过处理其余部分来节约计算时间。还可以根据图像序列的长度限制将图像序列划分为片段。每个片段可以通过使用时序信息与字幕元素相关联。例如，每个图像片段与一个时间窗口相关联，并且可以与具有该时间窗口内的时序信息的字幕元素相关联。

在块408中，计算设备302根据与字幕元素相关联的图像片段计算概要深度图。概要深度图代表某一片段的图像帧或者某些图像帧的深度值或者像素像差值。在某些实施方式中，图像概要化模块318可以将一个片段简化为成对的左概要图像和右概要图像，一个来自片段的左眼图像序列，一个来自片段的右眼图像序列。概要图像可以认为是图像片段的简化版本，其中，通过将图像帧的每一列像素投影至单个像素，片段的每个图像帧被缩减成概要图像中的单个行。以此方式从左眼图像片段被投影的左概要图像和从对应的右眼图像片段被投影的右概要图像形成概要图像对。概要深度计算模块320可以计算概要图像对的深度值或者像素像差值，并将获得的深度信息存储至概要深度图中。概要深度图可以包括概要图像对的全部像素或者某些像素的深度值或者像素像差值。

在块410中，计算设备302根据字幕元素的概要深度图来计算代表深度。代表深度可以是字幕元素的代表深度，并且在字幕元素持续期间内可以是常量也可以是变量。代表深度可以表示在3D图像序列中随着时间而改变的深度。在某些实施方式中，代表深度确定模块322计算字幕元素的代表深度，它在字幕元素的持续期间内可以是常量也可以是变化的值。

在块412中，计算设备302使用代表深度来确定字幕元素的渲染属性。渲染属性的示例包括深度设置、字体大小、字体颜色、在屏幕上的定位、以及3D字幕的字体样式以及颜色、大小、位置和附加信息样式，诸如图像。在某些实施方式中，渲染属性计算模块324使用至少部分地根据相关联的3D图像序列内容的深度的代表深度来确定渲染属性，渲染属性包括至少一个用于渲染字幕元素的指令。例如，代表深度可被确定作为字幕元素的深度的渲染属性，或被用来确定字幕元素的深度的渲染属性。

在块414中，计算设备302输出字幕元素的渲染属性。渲染属性可被用于渲染将与3D图像序列一起显示的字幕元素。

下文描述上文描述的模块和特征的其他实施方式。

图像概要化

图像概要化模块318的实施方式可以执行各种功能，诸如通过图像投影将某个3D图像序列简化为一对概要图像，其中一个图像是用于左眼，另一个用于右眼。投影可以垂直地执行，图像帧中的每个像素列被投影至单个像素，而每个帧被投影至一行。来自一个3D图像序列的所有图像帧的所投影的行可以组成一对概要图像。

在图5中绘出了图像概要化处理的实施方式的图形化说明。所示出的左眼图像序列502包括N个帧，并且每个帧包括H行。每行包括W个像素。左眼图像序列502可以被投影至具有N行的左眼图像506，其中每行包括W个像素。左概要图像506的第一行可从左眼图像序列的第一帧投影产生，左概要图像506的第二行可从左眼图像序列的第二帧投影产生，以此类推。投影的行可以组成尺寸为W×N的左概要图像506。类似地，右眼图像序列504可以被投影至具有N行并且每行具有W个像素的右概要图像508。左概要图像506和右概要图像508形成一概要图像对。

在某些实施方式中，投影是基于垂直采样投影算法而执行的，其一个实施方式在图6中绘出。字幕元素的定位可以在字幕文件中预先定义或指定。字幕元素通常位于图像帧的底部附近的中央，然而其他定位也是可行的。图6示出了图像序列的第k个左图像帧602的字幕区域604中包含的字幕元素。可以在字幕区域604中心处或者附近选择采样线606。第k个左图像帧602的每列的像素可以朝向采样线606被投影至单个像素，从而形成左概要图像610。例如，图像列m 608的所有像素或者基本上所有像素可以投影到采样线上的A点，而投影执行方法是使得采样线之上的像素向下投影而采样线之下的像素向上投影。投影的结果可以在位置(m，k)处产生左概要图像610中的像素B。

投影像素B的值可以通过选择某类投影函数来确定。投影函数的选择可以将原始3D图像序列压缩至一对概要图像，同时保留深度信息和深度变化信息。在一个实施方式中，投影函数是基于数学平均。在另一实施方式中，投影函数是一种加权平均，其中靠近采样线的像素被赋予较高的权重。投影过程可以针对图像帧k的每个列重复，并且结果是左概要像素610中的第k行612。可以对右眼图像帧应用类似的投影方法，以产生右概要图像(图6中未示出)。

垂直采样投影算法的另一实施方式使用多条采样线，其可以是多个垂直采样投影算法。在图7中绘出了此类算法的一个示例，其中第k个左图像帧702被划分为3个区域：(i)主要区域716，包括字幕区域704，以及两个辅助区域(ii)顶部区域720和(iii)中心区域718。

每个区域可以选择一条采样线。针对主要区域716所选择的采样线可以是主采样线706，其可被选择为靠近或者位于字幕区域704的中心。通过投影函数中的适当权重，主采样线在投影算法中被赋予主要任务。在一个实施方式中，比较靠近主采样线的像素被赋予的权重高于比较靠近辅助采样线的像素的权重。针对辅助区域而选择的采样线可以是辅助采样线，它可以位于但不局限于该区域的中心。在图7中示出的示例中，辅助采样线710代表图像帧的顶部辅助区域720处的深度变化，并且辅助采样线708代表图像帧的中心辅助区域718处的深度变化。垂直采样投影可以在每个区域内执行，使得像素被垂直投影至本区域的采样线。

在图7中示出的示例中，主要区域716中的第m列722的像素被投影至主采样线706上的点A；区域718内同一列的像素被投影至辅助采样线708上的点B；并且顶部区域720内的列m的其余像素被投影至辅助采样线710上的点C。在某些实施方式中，所划分区域的数目和采样线的位置根据多个因素而被确定，这些因素包括字幕区域的位置、3D图像的纵横比以及剧院的几何特征。例如，比较于具有投影横纵比2.40∶1的Scope图像格式，对于IMAX15perf/70mm图像格式(具有1.43∶1的投影横纵比)可以使用更多的采样位置。投影值可以按照加权平均的格式被进一步组合，以产生左概要图像712的行k 714的点D处的值。类似的投影方法可以应用于右眼图像帧，以产生右概要图像(在图7中未示出)。

在另一实施方式中，左图像帧或者右图像帧被划分为多个区域，并且每个区域被投影至不同的概要图像对，如图8中针对左眼图像序列所绘。垂直采样投影算法可以应用于左图像序列的每个区域，并且可以从每个区域产生概要图像对，得到形成概要图像堆栈812的多个概要图像对。用于每个区域的采样线的位置可以根据前面讨论过的原理而选择。包括字幕的区域可被指派为主要区域804，并且可以产生主概要图像对816(图8中未示出右概要图像)。其他区域均可以被认为是辅助区域806、808，并且每个辅助区域产生辅助概要图像对818、820(在图8中未示出右概要图像)。由此，主概要图像对816可以描述字幕附近的深度变化，而其他辅助概要图像对818、820可以描述指定区域中的深度变化。类似的投影方法可以应用于右眼图像帧以产生多个右概要图像(在图8中未示出)。

在另一实施方式中，概要图像对是从图像帧的所选择的某一区域投影产生，从而不一定具有图像帧的全部宽度。在图9中绘出了一个示例。可以针对左图像序列而标识第k个图像帧的两个所选择区域，一个区域可以是包括字幕区域904的主要区域906，而第二个区域可以是靠近图像顶部的辅助区域908。字幕区域904被绘出为具有宽度W₁＜W，而辅助区域908具有宽度W₂＜W。主概要图像对910(图9中未示出右概要图像)可以从主要区域906被投影，而辅助概要图像对912(图9中未示出右概要图像)可以从区域908被投影。在某些实施方式中，在投影中不使用所选择区域以外的像素。得到的主概要图像910可以是W₁×N的图像，而辅助概要图像912是W₂×N的图像。此方法可以允许深度分析集中于图像的关键部分。

概要深度分析

垂直采样投影算法的特定实施方式可以允许对3D图像片段中的深度变化的信息进行计算，在某些实施方式中，是相对快速的计算。图10示出了根据一个包括1450帧的3D图像片段生成的概要图像对(1002，1004)的示例。所得到的概要图像对可以描述该3D图像序列中的物体运动信息。该序列中主要物体的运动可用来进行下一步的分析。在图10中绘出了概要图像对的示例(1002，1004)，是根据包括1450帧的3D图像片段计算出来的。概要图像对(1002，1004)描述片段中两个主要物体1006和1008的运动，彼此相对进入和退出图像的前景。这种物体运动所引起的深度变化可以由概要深度图1010来记录，该概要深度图1010可以通过估计左概要图像1002与右概要图像1004之间的像素像差而产生。在某些实施方式中，概要深度图的计算可以由概要深度计算模块320执行。

概要深度计算模块320的特定实施方式允许快速计算3D图像片段中的深度信息。计算3D图像序列的像素像差的传统方法可能是非常耗时并且不可靠的。通过将一个3D图像片段简化为一对概要图像，在某些情况下深度计算速度可以明显加快，而且得到的深度(或者像差)更为可靠并且在时间上一致。

在一个实施方式中，像差可以根据概要图像对(1002，1004)被直接计算。在另一实施方式中，像差使用从粗到精(coarse-to-fine)贝叶斯(Bayesian)方法来计算，其中左概要图像和右概要图像首先被转换为具有多个细节层级的金字塔表示。计算从最粗级别(顶部级别)开始，并且可以通过使包括数据开销项和链接开销项的专用能量函数最小化来估计每个像素在概要图像对之间的像差。得到的像差值可以通过聚类方法而进一步分类为有限数目的群组，每个群组表示具有代表性深度(或者像差)的候选物体。来自顶部级别的结果可被用作计算较低级别的初始估计，而候选物体的深度可以利用该级别处估计的更多细节被细化。此过程可以重复，直到利用根据最低级别(精细级别)所估计的全部细节对候选物体的深度进行了细化为止。所得到的深度(或者像差)的集合形成可以是概要深度图的图像。图10中示出了概要深度图1010的示例。概要深度图1010可以具有与概要图像(1002，1004)相同的像素分辨率，但是它包括深度(或者像差)值而不是颜色或者亮度强度。如果生成了多个概要图像对，则可以根据每个概要图像对产生独立的概要深度图。

代表深度确定

代表深度确定模块322的特定实施方式可以根据由概要深度计算模块320生成的概要深度图来确定字幕元素的代表深度。如前所述，字幕元素的代表深度是一个代表性深度值，其可用于确定字幕元素的深度设置。在字幕元素的持续时间内，代表深度可以具有常量值也可以具有变量值。

图11中绘出了代表深度确定模块322的功能框图的实施方式。在某些实施方式中，计算代表深度是根据使用距离时间分布图对3D图像片段的像素像差(或者像素深度)的时间分布或统计分布的鲁棒分析。此类计算可以提供精确并且可靠的代表深度表示。距离时间分布图是像素深度(或者像差)在一个3D图像片段内的时间概率分布的图形说明。在图11中，距离时间分布图的计算可以通过计算模块1108来执行。初始代表深度的计算可以通过计算模块1112根据距离时间分布图来执行。

在某些实施方式中，初始代表深度值在相邻字幕元素之间可能具有突然跳变，这可以产生字幕深度设置的突然变化并且导致观看的不适。时间一致性模块1114可以用来平滑掉相邻字幕元素之间的代表深度值的跃迁。得到的代表深度值可以由计算模块1116编码成特定的数据格式。代表深度数据格式1118的一个示例是包含时序和代表深度信息二者的文本格式文件。

在某些实施方式中，字幕的代表深度可以使用鲁棒统计分析方法来计算。3D图像深度的统计分布可以按照像差分布的形式从概要深度图被收集，如图12中所绘。像差分布B_k(i)1206可以表示d_min与d_max(表示图像序列的最小像差值和最大像差值)之间的范围中的第k个图像帧的像差的概率分布。此类像差分布的值可以根据概要深度图的第k行1204计算。由此，像差分布可以包括d_max-d_min+1个仓，并且第i个仓的值B_k(i)(d_min≤i＜d_max)可以记录第k个图像帧的像素具有i的像差值的概率。在图12中，示出了这种像差分布1206的一个示例，它是从概要深度图1202的第k行1204收集的。

距离时间分布图是由一个3D图像片段中的所有图像帧的像差分布来组成。图13中绘出了距离时间分布图的一个示例。在示例距离时间分布图1302中，水平轴表示帧数(与时间相关联)而垂直轴表示像差的值(与深度相关联)。对于一个N帧的图像片段，所得到的距离时间分布图可以是具有d_max-d_min+1行和N列的图形化表示。距离时间分布图的第k列记录第k帧的像差分布，并且第k列上某一点的强度表示第k个图像帧中的像素具有某个深度(或者像差)值的概率。图13的距离时间分布图的示例根据图10的概要深度图1010示例而计算。

距离时间分布图可以描述深度(以像差的形式)在一个图像序列的时序中的统计分布的演变。这可被用来将场景中的主要物体的深度变化从场景的其他相对较小的细节分离开。距离时间分布图的强度可以表示图像像素在特定深度范围处的分布，并且较大的强度值表示像素在某特定深度中的密集度。由此，一个比较显著的具有较大尺寸的物体可以通过具有相对较亮强度值的深度运动轨迹来辨认出来。在图13中，距离时间分布图1302示出了三个主要物体的深度运动轨迹。第一主要物体1304在图像片段的开始处刚好处在前景中，但是当第二主要物体1306从后景向前景移动，它逐渐被第二主要物体1306所遮挡。这两个物体的深度运动轨迹交叉多次，表示它们交替出现在场景的前景中。同时，第三主要物体1308在整个图像序列中保持在其他两个主要物体之后，很可能属于该场景的背景。在这些主要图像之间模糊的点云可以表示较小的物体或者其他微小细节1312，对于代表深度确定而言，其深度不像主要物体那样重要。使用统计方法可以从距离时间分布图提取明显独特的轨迹，并以此来衡量场景中的显著物体的深度演变。某个轨迹中的中断可以预示物体之间的强遮挡，诸如图13中的遮挡1310。

3D字幕代表深度的计算可以使用定义字幕元素的时间窗口的时序信息。字幕元素可以在某种字幕文件中指定，例如是特定格式的文本格式的文件。在图14A中示出了XML文本格式文件的传统字幕文件的示例。文件中可以定义每个字幕元素的时序信息，包括开始时间(“TimeIn”)和结束时间(“Timeout”)。图14A中的字幕文件示例还包括字幕属性，诸如文本屏幕定位信息，包括水平对准(“HAlign”)、垂直对准(“VAlign”)、水平位置(“HPosition”)以及垂直位置(“VPosition”)。屏幕定位可以通过像素数目或者屏幕高度的百分比来定义。字幕系统可以使用字幕文件中定义的信息来产生叠加到影片图像上的字幕图像。

由图3所示的时间窗口选择模块316可以使用字幕文件中的时序信息来选择对应于某个字幕元素的时间窗口。在某些实施方式中，当多个连贯的字幕元素连接得很近时，它们可以共享同一个代表深度以便在最大程度上减少深度的突然跳变。在这种情况下，一个时间窗口可以包括多个字幕元素。在图15中绘出的示例中，第一字幕元素1502开始于图像序列的时间t_s01并且结束于时间t_e01。开始时间t_s01对应于帧0002，而结束时间t_e01对应于帧0026。第一字幕元素1502的代表深度可以在帧0002-0026的范围内被确定，因此时间窗口1512从帧0002开始共有25帧的长度。在图15中的另一示例中，字幕元素1504开始于帧0033并且结束于帧0081。下一字幕元素1506紧跟字幕元素1504，从紧跟在字幕元素1504的结束帧0081之后的帧0082开始。字幕元素1504和1506可以共享同一代表深度，从而使两者被包括在开始于帧0033、结束于帧0152并具有120帧长度的同一时间窗口1514中。每个时间窗口可以包括来自左眼图像1508和右眼图像1510二者的图像帧。在某些实施方式中，时间窗口的长度可以被选择为超过字幕元素的持续时间。

一旦选择了时间窗口，便可以从3D图像序列划分出3D图像片段。代表深度可以根据针对每个时间窗口的距离时间分布图来计算。代表深度可以是时间窗口内的一个时变函数，它也可以具有常量值。在图16中，对时间窗口1602来说可以指定一个常量代表深度，而对另一时间窗口1604则可指定一个随时间变化的代表深度。在图16的示例中，用于时间窗口1602的代表深度是这样来确定：将属于时间窗口1602的距离时间分布图1610中的所有列的数据加以平均得到一个平均像差分布1612。该像差分布1612可以显示两个主导性的深度聚类，一个集中于相当于30像素像差的深度周围，而第二个集中于相当于约50像素的像差的深度。这些聚类可以預示场景中主导性物体的存在。聚类算法(诸如均值偏移滤波法)可以应用于1612的像差分布，以检测主导性模式的存在。在具有两个主导性模式的1614的图中绘出了结果，一个具有32像素的像差，而第二个具有49像素的像差。因为具有49个像素的模式是最具有影响力的主导性模式，可以因此来确定该常量代表深度。时变代表深度(诸如1608的示例)可以通过遵循时间窗口内的主导性模式的深度变化而确定。所公开的代表深度计算方法也可以有其他变化的方法。

代表深度的计算还可以受到其他因素影响，包括影片呈现中3D字幕的定位。3D字幕可以叠加在图像的底部，然而也可以置于图像的其他部分。另外，字幕还可以置于图像帧之外，诸如置于图像之下。在计算代表深度之后，可以调整字幕的位置。基于距离时间分布图计算时变代表深度可以根据上文描述的类似方法。

图像解码

代表深度的计算需要接触图像内容的某种数字形式。对于用胶片拷贝发行的影片，代表深度的计算可以在胶片发行前的后期制作阶段执行。3D字幕可以按照适当的像差偏移被“烧制到”左眼胶片拷贝和右眼胶片拷贝。3D字幕也可以通过字幕投影系统而被投影到屏幕上，该字幕投影系统产生具有适当像差的字幕左眼图像和字幕右眼图像。对于以数字格式发行的影片，在投影到屏幕之前，可以通过数字影院服务器或者3D字幕设备来将字幕叠加到图像上。代表深度的计算可以在后期制作阶段进行，然而也可以在影院现场进行甚至在影片放映时实时地执行。数字形式的影片通常是以数字影院包(DCP)的形式发行至影院的，其中可包括呈现一部影片所需的全部元素，包括数字图像文件和字幕文件。DCP格式中的图像文件通常是经压缩的并且是加密的。电子密钥可用于解密压缩的图像文件，继而在投影之前将其解压缩。解密和解压缩可以通过媒体模块设备实时地执行，该设备可以是数字影院服务器内的一个组件、或者是投影系统或者影院控制系统中的一个组件。根据某些实施方式的解密和解压的函数可以由图3中的图像解码模块314执行。

应用于DCP的压缩方案可以是JPEG2000或者J2K(ISO/IEC15444-1)，其可以在小波变换域中执行。J2K是帧内压缩方法，其中每个图像帧的像素值可以表示为多级小波子带的系数。子带可以是一组小波系数，其表示与图像的特定频率范围和空间区域相关联的图像帧的方面。每个子带的小波系数可被进一步组织为包，并且可以通过使用熵编码来编码压缩。每个包可以是表示特定帖片(tile)的小波系数的连续片段，其将以出现在代码流中的特定顺序被传输。此类顺序的一个示例是由DCI规定的分量分区分辨率层(CPRL)进阶顺序。在CPRL进阶顺序中，每个包表示具有特定的分量、分区、分辨率和层的区片，如图17A和图17B中所绘。对于使用5级小波解压的2048×1080像素的全分辨率的图像帧而言，所得到的子带可以包括大小为64×34的顶级(Level 0)子带1702，大小为128×68的级别1子带1704，大小为256×135的级别2子带1706，大小为512×270的级别3子带1708，大小为1024×540的级别4子带1710，以及大小为2048×1080的级别5子带1712。在图17A中绘出了这些子带。图17A还示出，每个级别的子带可以被划分为至少一个分区。例如，级别4子带1710被划分为12个分区。J2K规定：每个分区被编码为单个不可分单元。由于图像帧具有三个颜色通道，所得到的J2K比特流包括177个包。

包是使得J2K压缩获得可伸缩性的关键。图像帧的一个缩减版本可以从相对较少的表示顶级子带的包来解码出来。例如，仅需要7个包即可全部覆盖级别3处的图像帧1726的512×270的缩减版本的每个颜色通道。一种选择性DCP解码方法利用J2K比特流的伸缩性来至少部分地解码出图像的缩减版本。只要从由3D DCP比特流中的较少数量的包代表的部分解码的图像帧就可以提取足够的深度信息。由此，使用选择性解码可以降低代表深度的计算量。选择性解码的功能可以通过图3中的图像解码模块314实现。

在图17B中进一步描述了选择性解码的方法的一个实施方式。绘出了表示顶部4个级别(级别0-3)的小波子带的J2K比特流包。顶部3个级别的子带中的每一个可以具有用于每个颜色通道的单个包。由此，对于每个单独颜色通道，可以从接收第一个包1714解码64×34图像1720。可以通过添加下一个包1716而解码128×68图像1722，并且可以通过接收一个更多的包1718而解码较大的256×135图像1724。通过仅解码前三个包(例如，在图像帧的DCP比特流中的总量177个包中)，可以恢复256×135分辨率的缩减的图像，尽管仅有一个颜色通道。此类缩减的图像对于估计代表深度而言是足够的。为简单起见，在图17B中绘出的示例示出了用于单一颜色通道的处理，然而如果需要，则相同的处理方法可以扩展至其他颜色通道。

通过在级别3处以512×270像素分辨率来解码图像，可以计算更精确的代表深度，其可以使用附加的四个级别3包，诸如包3-6(图17B中所示的1728)。基于由DCI规定的CPRL进阶顺序，也在图18中示出的包3、6、4、5(1728)可以是按照码流的顺序的包3、10、45、52。每个级别3分组可以表示特定的小波系数组，其对于深度信息具有不同程度的重要性。如图18中所示，级别3可以提供3个附加子带：HL、LH和HH。HL子带1808可以包括水平方向不连续信息(也即，垂直边缘)，并且对于记录深度信息而言可能是重要的。LH子带1810可以包括水平边缘，而HH子带1812可以记录较高频率细节。在某些实施方式中，可以在没有LH和HH子带的情况下执行立体匹配。例如，HL子带1808中的小波系数可以用于计算代表深度，以进一步改进计算效率。

在图18中示出了将级别3子带编码为4个包的示例。包3(1814)和包6(1816)表示HL子带1808的一部分，在用于解码级别2图像的3个包以外再加上使用这两个包可以促进级别3图像解码的简化。在某些实施方式中，通过将相应组的系数设置为零而忽略包4(1818)和包5(1820)。可以使用5个包来解码级别3图像：包括包0-2(1802、1804、1006)、包3(1814)和包6(1816)。结果产生具有512×135像素分辨率的缩减的图像，这可以具是一半高度的整个级别3图像。在某些实施方式中可以丢弃LH和HH子带，以通过例如不计算级别3处的垂直小波逆变换来节省计算量和缓存量。

JPEG2K包的解码可以包括两个过程：层1解码和层2解码。层2解码可用于解码包头部并且将比特流划分为代码块。层1解码可用于解码包中的每个代码块。层1解码可以比层2解码花费更多的计算量。通过不解码LH和HH子带，层1解码可在HL子带进行，以相对于7个包完整解码而言将计算量降低大约2/3。作为结果，选择性DCP解码的特定实施方式可以按照如下方式减少计算量：使用亮度通道、选择足够的编码级别、将所选择包解码成一个缩减版本的图像、以及基于该缩减图像来计算代表深度。

对于包的选择还依赖于字幕在屏幕上的位置。如图14A中所示，在字幕文本文件中，字幕元素的屏幕对准位置可以是全局固定的。一个常见的屏幕对准位置是在屏幕底部。然而，对于3D字幕而言，使用固定位置在某些情况下可能是有问题的。例如，对于在屏幕的底部附近具有距离非常近的深度的图像场景而言，将字幕放置于屏幕底部可能会对观众造成不适。在此情况下，可以将字幕定位在其他的屏幕位置，以保持观看的舒适性。如以上所讨论，代表深度的计算可以依赖于字幕的屏幕定位。例如，在由图像概要化模块使用的多垂直采样投影算法中(如图7中所绘)，主要采样线706的位置可以由字幕屏幕定位来确定。如果字幕屏幕定位改变，则字幕区域704可被重新分配，并且主要采样线也可被重新计算。用于计算字幕元素的代表深度的所得左概要图像712也可以是不同的。

字幕深度和垂直屏幕定位可被记录在3D字幕文件中，诸如图14B中所示的采样文件。字幕元素的深度可以通过屏幕视差偏移(“PShift”)来描述，其水平偏移量可以在左眼字幕图像和右眼字幕图像之间平均分配。视差偏移可以由像素数目以绝对方式来定义，或者由屏幕宽度的百分比以相对方式来定义。另外，用于左眼和右眼的视差偏移量也可以不是平均分配的。在这种情况下，用于左概要图像和右概要图像的水平视差偏移的量可以在3D字幕文件中分别指定。图14B中的采样文本文件还可以允许字幕元素的其他属性根据图像内容而自适应地改变，以便为内容制作者提供更多的创造性选择，并且最终增强3D影片的视觉体验。其他属性的示例包括文本字体样式、文本字体大小以及字幕文本的颜色。

在另一实施方式中，字幕的文本字体大小根据字幕元素的深度设置而自适应地改变。自适应改变字体大小的一个目的可以包括保持由观众所感知到的一致的字幕大小。立体3D图像中，所感知到的物体大小受到物体深度位置的影响。例如，一个3D物体在向观众靠近时会看起来逐渐缩小，即使其实际大小并未改变。这可以称为微缩化，这种现象是受支配立体视觉的尺寸-距离(size-distance)法则决定的的。当该物体离开观众时会看起来逐渐变大，此时就发生逆向微缩化现象。微缩化现象也可以适用于感知到的3D字幕元素的大小。由此，当字幕文本位于比较靠近观众时，它看起来比位于远离观众时要小，这种情况也许是可接受的也有可能是不能接受的。在某些实施方式中，字幕的字体大小被自适应地缩放，以预补偿小型化的作用，从而使感知到的字幕的大小在整个影片中始终是一致的。通过应用尺寸-距离法则，用于预补偿的大小缩放因子可以根据估计的微缩化水平来计算。

在另一实施方式中，字幕文本字体的样式和/或颜色根据图像内容而自适应地改变。自适应地改变字体样式和/或字体颜色的一个目的是为内容制作者提供更多创造性选择，并且最终增强3D影片的视觉体验。改变字幕文本颜色的另一目的可以包括，增强字幕的可读性以避免字幕与颜色接近的背景图像相混淆。改变字幕字体样式和颜色的又一目的可以是用于表达言语或者解说中的特定的情绪。

3D字幕的内容自适应属性可被记录在3D字幕文件(诸如图14B中所示的示例)中。示例文件示出了用于记录字体大小信息(“Size”)、字体样式信息(“FontID”和“Weight”)以及字体颜色信息(“Color”)而创建的新信息字段。这些信息字段可以针对每个字幕元素而不同地设置。

示例性显示实现

通过使用针对字幕元素而计算的一个或者多个渲染属性，有各种系统和方法可用于与3D图像一起显示内容自适应的3D字幕。可以用于此类显示的系统的示例包括离线显示系统和实时显示系统。在离线显示系统中，字幕渲染属性在第一时间点计算，并且存储在诸如字幕文件的数据文件中或者存储在元数据中。在之后的第二时间点，保存的渲染属性由影院服务器或者与显示设备通信的其他显示服务器所使用，以产生与3D图像序列一起显示的字幕元素。显示设备的一个示例是投影机。

用于离线显示系统的内容自适应字幕属性的计算过程可以是3D影片的后期制作过程的一部分。得到的字幕深度信息和其他属性可以按照数字影院包(DCP)的格式被递送至3D投影系统。DCP格式是向数字影院分发的影片的数字表示形式。DCP格式包括轨道文件，其表示图像数据、音频数据、字幕数据、元数据或者其他数据。为了分发安全性，这些轨道文件会被加密。在特定标准文档中描述了用于DCP文件封装的方法和技术规范，该特定标准文档包括由数字影院倡导者LLC颁布的数字影院系统规范(1.2版本)，以及当前由SMPTE(电影电视工程师协会)开发的多个标准文档。

在实时显示系统中，可以实时地或者至少近似实时地确定渲染属性，字幕根据这些渲染属性与3D图像序列同步显示。例如，该系统可以接收已编码或者未编码的3D图像序列以及字幕文件。该系统可以确定渲染属性，并且根据渲染属性安排3D图像序列和字幕以便由例如投影机进行显示。

图19绘出了根据本发明一个实施方式的离线显示系统的功能框图。该系统可以用于计算3D字幕渲染属性，并且可以至少部分地部署为离线后期制作过程的中一个或多个软件模块。例如，在图19中绘出的某些模块可以实现为存储在计算机可读媒体上的可执行代码，或者实现为硬件配置。

上述系统可以包括服务器设备1900，其可以接收3D图像序列1906和3D字幕文件/元数据1908。3D字幕文件/元数据可以包括渲染属性和其他信息，诸如时序信息、字幕文本、开始和结束时序、垂直位置、水平位置、深度或者像素偏移、文本字体和语言读取方向(从左向右、从右向左，等等)。3D字幕文件/元数据1908可以在向服务器设备1900提供之前存储在存储媒体上。3D图像序列1906可以是包括将被分发至影院的轨道文件的DCP包。在某些实施方式中，3D字幕文件/元数据1908与3D图像序列1906一起被分发至服务器设备1900。在其他实施方式中，3D字幕文件/元数据1908独立于3D图像序列1906而被分发至服务器设备1900。

上述服务器设备1900可以是基于处理器的设备，其可以执行存储于计算机可读媒体上的代码。服务器设备1900可以包括可以有形地体现可执行代码的处理器和计算机可读媒体。服务器设备1900可以是影院服务器，其能够使用渲染属性在3D图像序列上叠加字幕。在某些实施方式中，服务器设备1900通过网络(诸如，因特网或者内联网)接收3D图像序列1906和3D字幕文件/元数据1908。在其他实施方式中，3D图像序列1906和3D字幕文件/元数据1908存储在便携式存储设备上，诸如光学存储设备或者半导体存储设备，该存储设备可以由服务器设备1900实际地接收。

服务器设备1900可以包括字幕控制器1910，其使用来自3D字幕文件/元数据1908的信息(诸如，渲染属性和字幕)以控制字幕渲染模块1912。字幕渲染模块1912能够使用渲染属性来渲染字幕以及向3D图像序列上叠加字幕。例如，字幕控制器1910可以根据3D字幕文件/元数据来生成控制命令，并且将该控制命令提供给字幕渲染模块1912。控制命令可以包括用于在针对每个字幕元素的正确时间和正确的屏幕定位产生字幕文本图像的命令。这些命令可以由来自图像解码器1914的当前显示运行时间来触发。遵循来自字幕控制器1910的每个命令，字幕渲染模块1912可以利用正确的字体产生字幕文本图像，并且在正确位置和与当前左眼图像和右眼图像同步的偏离将字幕图像与左眼图像和右眼图像相结合。

3D图像序列1906可以是已编码格式，并且可以由图像解码器1914接收以在由字幕渲染模块1912接收之前解密3D图像序列1906。在其他实施方式中，3D图像序列1906是未编码格式，该图像序列1906被提供至字幕渲染模块1912而无需被图像解码器1914解码。例如，可以在由服务器设备1900接收之前解码3D图像序列1906。字幕渲染模块1912可以根据渲染属性在3D图像序列上叠加字幕元素。

上述服务器设备1900会将3D图像序列以及根据渲染属性被叠加在3D图像序列上的字幕提供给显示设备1916。显示设备1916能够向观众显示带有3D字幕的3D图像序列。显示设备1916的示例包括影院投影机、液晶显示设备、等离子显示设备或者其他高清显示设备。

图20绘出了一个在线处理系统的功能流程图，该系统的一个例子是位于影院现场的实时显示系统。在影院现场接收到3D图像序列2002和字幕文件2006。3D图像序列2002可以与字幕文件2006一起被接收，或者独立于字幕文件2006被接收。字幕文件2006可以包括字幕信息(诸如字幕文本)和时序信息。

服务器设备2000可以位于影院现场。服务器设备2000可以是基于处理器的设备，其可以执行在计算机可读媒体上存储的代码。其可以包括有形地体现可执行代码的处理器和计算机可读媒体。服务器设备2000可以包括存储在计算机可读媒体上存储的图像解码器2004。如果需要，图像解码器2004可以将3D图像序列2002解码为未加密和未压缩的格式。在某些实施方式中，服务器设备2000不包括图像解码器2004，或者图像解码器2004不对3D图像序列2002进行解码。例如，3D图像序列2002可以是未加密和未压缩格式，或者图像解码模块314可被包括在服务器设备2000中的计算设备302中。计算设备302可以接收3D图像序列2002和字幕文件2006，并且实时地执行例如针对图3而描述的功能，以输出渲染属性2008。渲染属性可以由字幕渲染模块2010(其可以接收3D图像序列2002或者未加密3D图像序列)用来渲染字幕文本图像，并且将字幕叠加到3D图像序列2002上。字幕渲染模块2010的输出可以被提供给显示设备2012。显示设备2012可以是投影机，其可以能够向观看观众显示叠加到3D图像序列2002上的字幕。

在某些实施方式中，计算设备302包括字幕控制器，其向字幕渲染模块2010输出控制命令，以使字幕渲染模块2010正确地渲染以及向3D图像序列上叠加字幕。控制命令可以包括例如指定将要渲染字幕的深度或者像素偏移的命令，其伴随有与深度和字幕元素相关联的时序信息。

字幕控制器的实施方式的某些特定功能依赖于输入和输出设备的特征。例如，如果深度信息是离线方式计算的并且通过DCP被分发，则对字幕控制器的输入可以是已解码的轨道文件，诸如具有预定义文本文件格式的3D字幕文件或者元数据。字幕控制器可以解译文本文件，并且获取深度信息以及其他字幕信息。在另一实施方式中，如果深度信息是通过独立的通道递送的，则输入数据文件可以具有也可以不具有文本文件格式，并且字幕控制器可以按照不同方式解译输入深度信息。在另一实施方式中，如果字幕深度信息是根据DCP被实时计算的，则深度信息可以直接可用于字幕控制器，而其他字幕信息可以从常规字幕文件获取。

图21示出了根据一个实施方式的可以由字幕控制器执行的方法，其接收DCP轨道文件作为输入，并且向字幕渲染模块输出控制内容自适应深度的指令。图21中的第一步骤是接收来自DCP解码器2102的DCP轨道文件。字幕控制器继而可以在轨道文件中搜索第一字幕元素，并且获取深度信息2106。深度信息的范围可以从距离观众数英尺到无限远，或者可以由等同的像素像差来描述。输出设备、字幕渲染模块可以具有有限的深度范围和只允许固定数目的深度步长。例如，字幕渲染模块可以能够输出从10英尺到100英尺范围中的深度，并具有有限数目的允许深度步长。在这种情况下，字幕控制器可以将字幕深度值映射至存储在控制器的存储器设备中的最接近的所允许深度步长。这样的过程在图21中被描述为深度量化2108。字幕控制器还可以从轨道文件获取时序信息，以便在正确的时序向输出设备、字幕渲染模块发出指令，从而使显示的字幕文本可以与图像和音频轨道同步，并且当字幕出现在屏幕2110上时也没有跳跃。根据特定的实现方法，从字幕控制器发出指令到字幕渲染模块执行该指令可能需要一定量的时间。字幕渲染模块可以能够在特定的时间间隔内执行指令。为了维护字幕与音频和图像的同步，延迟和间隔可以确定指令的触发时间，以避免同步错误。这样的过程可以是时序量化2112。

上述系统可以搜索与当前字幕元素2114相关联的其他信息。利用所确定的深度和时序以及其他相关联信息，字幕控制器生成送往字幕渲染模块2122的指令2116，以在正确的时间并且以正确的深度、字体和屏幕定位生成3D字幕图像。字幕控制器针对在DCP轨道文件2118、2120中列出的每个字幕元素重复上述步骤。

在某些实施方式中，图21的字幕控制器的工作流可以进一步扩展，以控制其他内容自适应字幕属性。字幕控制器继而可以从轨道文件搜索并获取每个相关字幕属性，执行必要功能以将这些字幕属性值变成适当的指令，该指令须与字幕渲染模块的硬件和软件的限制相兼容。

出于示出、解释和描述本发明的实施方式的目的提供了上述内容。在不脱离本发明范围和精神的情况下，针对这些实施方式的进一步的修改和调整对本领域技术人员是显而易见的。

Claims

1.一种用于创建内容自适应的立体三维3D字幕的方法，所述方法包括：

接收3D图像序列，所述3D图像序列包括右眼图像序列和左眼图像序列；

接收用于所述3D图像序列的字幕文件，所述字幕文件包括字幕元素和与所述字幕元素相关联的时序信息；

将所述字幕元素与所述3D图像序列的片段相关联，其中将所述字幕元素与所述3D图像序列的所述片段相关联基于所述时序信息；

通过映射所述右眼图像序列中的多个帧来生成右眼概要图；

通过映射所述左眼图像序列中的多个帧来生成左眼概要图；

由计算设备根据所述右眼概要图和所述左眼概要图计算概要深度图，所述计算设备包括能够使所述计算设备计算所述概要深度图的处理器，所述概要深度图是所述3D图像序列的所述片段的图像帧的深度值的代表；

由所述计算设备根据所述字幕元素的所述概要深度图来计算代表深度，所述代表深度是用于确定所述字幕元素的深度设置的代表性深度值；

使用所述代表深度确定所述字幕元素的渲染属性；以及

输出所述渲染属性。

2.根据权利要求1所述的方法，其中由所述计算设备根据所述右眼概要图和所述左眼概要图计算所述概要深度图包括：根据使用垂直采样投影生成的概要图像对来计算所述概要深度图，

其中所述概要图像对包括根据所述左眼图像序列生成的所述左眼概要图像以及根据所述右眼图像序列生成的所述右眼概要图像。

3.根据权利要求2所述的方法，其中垂直采样投影包括：

在所述3D图像序列中选择采样线；以及

通过将图像像素的垂直列的至少一个像素向所述采样线上的点进行投影来创建新像素，其中所述新像素包括由所选择的投影函数确定的值。

4.根据权利要求2所述的方法，其中根据所述概要图像对来计算所述概要深度图包括：估计水平像素像差。

5.根据权利要求1所述的方法，其中由所述计算设备基于所述字幕元素的所述概要深度图来计算所述代表深度包括：

基于来自所述概要深度图的像素像差的时间分布和统计分布来确定所述代表深度。

6.根据权利要求1所述的方法，其中所述代表深度在所述字幕元素的持续时间中是常量。

7.根据权利要求1所述的方法，其中所述代表深度在所述字幕元素的持续时间中随时间变化。

8.根据权利要求1所述的方法，进一步包括：

基于所述3D图像序列的内容，改变所述字幕元素的下列两种属性中的至少一个属性：文本字体大小或者文本字体颜色。

9.根据权利要求1所述的方法，进一步包括：

辨识相邻字幕元素之间深度改变是否具有大于预设阈值；以及

根据辨识结果修改深度值。

10.根据权利要求1所述的方法，其中所述渲染属性包括以下至少一个：

所述字幕元素的深度；

所述字幕元素的颜色；

所述字幕元素的字体样式；

所述字幕元素的字体大小；以及

所述字幕元素的屏幕定位。

11.根据权利要求10所述的方法，其中所述渲染属性是所述字幕元素的颜色，其中所述颜色基于所述3D图像序列的内容而被修改，以使得所述字幕元素易区分于所述3D图像序列的所述内容。

12.根据权利要求1所述的方法，其中所述代表深度包括像差值其大于与所述字幕元素一起显示的所述3D图像序列的至少部分内容的最大像差值。

13.根据权利要求1所述的方法，其中所述3D图像序列是编码的3D图像序列。

14.根据权利要求13所述的方法，进一步包括：

对所述编码的3D图像序列进行解码以计算所述代表深度。

15.根据权利要求13所述的方法，其中所述编码的3D图像序列是数字影院包(DCP)格式或者视频格式之一。

16.根据权利要求15所述的方法，其中所述编码的3D图像序列是DCP格式化的3D图像序列，其至少部分地使用基于JPEG的编码信息中的一部分包被解码，以计算所述代表深度。

17.根据权利要求1所述的方法，进一步包括：

将所述渲染属性存储为3D字幕文件；以及

独立于所述3D图像序列提供所述3D字幕文件。

18.根据权利要求1所述的方法，进一步包括：

将所述渲染属性和所述3D图像序列存储在一个数据文件包中；以及

提供所述数据文件包。

19.一种用于创建内容自适应的立体三维3D字幕的装置，所述装置模块包括：

用于基于字幕元素的时序信息将所述字幕元素与3D图像序列的片段相关联的模块，所述3D图像序列包括右眼图像序列和左眼图像序列；

用于基于与所述字幕元素相关联的所述3D图像序列的所述片段中的至少部分内容的深度来计算所述字幕元素的渲染属性的模块，包括：

用于通过映射所述右眼图像序列中的多个帧来生成右眼概要图的模块，

用于通过映射所述左眼图像序列中的多个帧来生成左眼概要图的模块，

用于根据所述右眼概要图和所述左眼概要图计算概要深度图的模块，所述概要深度图是所述3D图像序列的所述片段的图像帧的深度值的代表，

用于基于所述字幕元素的所述概要深度图来计算代表深度的模块，所述代表深度是用于确定所述字幕元素的深度设置的代表性深度值，以及

用于使用所述代表深度来确定所述字幕元素的所述渲染属性的模块；以及

用于输出所述渲染属性的模块。

20.根据权利要求19所述的装置，进一步包括：

用于使用所述字幕元素的所述渲染属性与所述3D图像序列一起渲染所述字幕元素的模块。

21.根据权利要求20所述的装置，其中用于使用所述字幕元素的所述渲染属性与所述3D图像序列一起渲染所述字幕元素的模块包括：

用于根据所述渲染属性在表观深度处将所述字幕元素叠加到所述3D图像序列上的模块。

22.根据权利要求19所述的装置，进一步包括：

用于基于所述字幕元素的所述渲染属性来提供控制命令的模块；以及

用于响应于接收所述控制命令而与所述3D图像序列一起渲染所述字幕元素的模块。

23.根据权利要求19所述的装置，其中所述渲染属性包括以下至少一个：

所述字幕元素的深度；

所述字幕元素的颜色；

所述字幕元素的字体样式；

所述字幕元素的字体大小；以及

所述字幕元素的屏幕定位。