CN1717064A

CN1717064A - 交互式的观察点视频系统和过程

Info

Publication number: CN1717064A
Application number: CNA2005100820938A
Authority: CN
Inventors: C·济特尼克三世; M·游伊顿戴尔; R·采里斯基; S·文德尔; 江胜明
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-06-28
Filing date: 2005-06-28
Publication date: 2006-01-04
Anticipated expiration: 2025-06-28
Also published as: US20050286759A1; ES2619934T3; US7286143B2; EP1612732A2; EP1612732A3; KR101203243B1; US20050285875A1; EP1612732B1; JP2006012161A; KR20060048551A; JP4783588B2; US7292257B2; CN1717064B

Abstract

一种用于生成、然后呈现和显示一交互式观察点视频的系统和过程，在所述交互式观察点视频中，用户能在随意操纵(停顿、减慢或倒转)时间并改变观察点的同时观看到动态的场景。通常，交互式观察点视频用少量摄像机生成以捕获多个视频流。采用了多视图的3D重构和遮蔽技术来创建视频帧的分层表示，这能在允许实时呈现的同时，既能进行有效的压缩、又能对所捕获的动态场景进行交互式回放。

Description

交互式的观察点视频系统和过程

技术领域

本发明涉及视频的生成和呈现，尤其涉及用于生成和呈现一交互式观察点视频的系统和过程，在所述视频中用户能在随意改变观察点的同时观看到动态的场景。

背景技术

几年来，电视业和电影长片的观看者一直以来都在观看“停帧”效应，所述停帧效应用来创建时间停止且摄像机观察点变化的幻象。最早的商业应用是使用基于胶片的系统，该系统在沿着轨道排列的不同的静态摄像机之间快速跳跃，以便通过一段时间的停顿给出移动的幻象。

在它首先出现时，该效应是新鲜的并且十分惊人，但不久它就在许多产品中被仿效，最著名的仿效可能是在题为“骇客帝国(Matrix)”的电影中所见的“子弹时间”效应。不幸的是，这一效应是一次性的、预先计划的事件。观察点轨道在时间前已计划好，并且用了许多工时来产生期望的内插视图。较新的系统是基于视频摄像机阵列，但仍依赖于使许多摄像机避免软件视图内插。

因此，现有的系统不会使用户能在观看基于动态图像的场景的同时、交互式地改变到任何期望的观察点。过去，对于基于图像的呈现(IBR)的大多数工作包括呈现静态场景，两种最常用的技术是光场呈现[12]和Lumigraph[8]。它们在高质量呈现方面的成功源于使用大量的采样图像并且启示了该领域中的大量工作。这一创新工作的一种令人鼓舞的可能扩展包括：在观看视频的同时交互式地控制观察点。用户交互式地控制视频观察点的能力大大提高了观察体验、使这种不同的应用成为新的观察点即时重放、改变了舞台上的观察点并且随意创建“停帧”视觉效应。

然而，由于同步大量的摄像机以及捕获和保存图像的困难(和成本)，因此把IBR扩展到动态场景并非轻而易举。不仅要克服在捕获、显示和呈现来自多个观察点的动态场景时的困难，而且能做到这一点交互式地产生进一步的复杂性。目前，实现这一目标所作的尝试并不十分令人满意。

关于交互式观察点视频系统的基于视频的呈现方面，一种捕获和呈现动态场景的最早尝试在Kanade等人锁住的“Virtualized Reality system”[11]中提及，其中包含了沿着5米的网格球顶排列的51个摄像机。每个摄像机的分辨率为512×512，捕获速率为30fps。它们基于场景流公式[18]使用三位象素着色[15]的形式在每个时间帧处提取一全局表面表示。不幸的是，因为低分辨率、匹配误差以及对象边界的不适当处理而使结果看上去不切实际。

Carranza等人[3]使用了分布在一房间周围朝中心看的七个同步摄像机来捕获3D人类运动。每个摄像机都为CIF分辨率(320×240)，并且以15fps进行捕获。它们事先使用了3D人类模型在每个时间帧处计算3D形态。

Yang等人[21]为了捕获动态的场景而设计了一个8×8的摄像机网格(每个都为320×320)。它们仅发送组成期望的虚拟视图所必要的射线，而非保存和呈现数据。在它们的系统中，摄像机未同步锁相，而是依赖于六台PC间的内部时钟。摄像机捕获速率为15fps，交互式观察速率为18fps。

作为对保存动态光场的概念的验证，Wilburn等人[20]表面，可能同步六个摄像机(30fps下，640×480)，并且实时地压缩和保存全部图像数据。它们后来连接了128个摄像机。

如果场景几何形状未知或者仅仅是近似地知道，则对于逼真呈现而言需要许多图像。如果几何形状准确已知，则可能减少对图像数量[8]的要求。提取场景几何形状的一种实际方式是通过立体系统，已经为静态场景[14]提出了许多立体算法。然而，在用动态场景采用立体技术方面只有很少的尝试。作为Virtualized Realitywork[11]的一部分，Vedula等人[18]提出了一种使用2D光学流和3D场景形态来提取3D运动(即场景形态在时间上的对应关系)的算法。在他们的方法中，他们使用与三位象素着色[15]相似的表决方案，其中所使用的度量是一假设的三位象素位置与3D流公式的适配程度。

Zhang和Kambhamettu[22]也在他们的结构中集成了3D场景流和结构。他们的3D拟似运动模型以空间正则化在本地使用，并且使用色彩分段保留了不连续性。Tao等人[17]假设场景是分段的平面。他们还假设各个平面小块有恒定的速度，以便约束动态景深图(depth map)估计。

在更精心的努力下，Carceroni和Hutulakos[2]在有已知照明位置的非严格运动下恢复了分段连续的几何形状以及反射率(Phong模型)。他们把空间离散化为表面元(“surfel”)，并且通过位置、方向和反射参数执行搜索以便使和所观察图像的一致性最大化。

在关注常规的本地窗口匹配时，Zhang等人[23]使用跨过空间和时间的匹配窗口。这一方法的优点在于，亮度恒定性与时间的相关性较小。

活动测距技术也应用于移动的场景。Hall-Holt和Rusinkiewicz[9]使用随时间变化的投影的边界编码的色条信号图。市场上也有一种称为ZCam^TM的商用系统，由以色列的3DV Systems公司制造，是一种结合广播视频摄像机使用的距离探测视频摄像机外接附件。然而，它是一种昂贵的系统，并且仅提供单一的景深，因此它较不适用于多观察点的视频。

然而，尽管在立体和基于图像的呈现方面的所有提高，仍旧很难交互式地呈现高质量的、高分辨率的动态场景视图。本发明以一种效能成本划算的方式解决了这一问题。

注意到在前面的段落中，以及在该说明书的其它部份，描述是指由一对括号内包含的数字编号所标识的各个单独出版物。例如，这一引用可以通过引用“索引[1]”或仅仅用“[1]”来标识。多个引用会由包含多于一个编号的一对括号来标识，例如[2，3]。在具体实施方式部份后面可以找到包括与各个编号相对应的出版物一列索引。

发明内容

本发明针对一种系统和过程，用于首先生成、其次呈现和显示一交互式的观察点视频，其中用户能在随意操作(停顿、减慢或倒转)时间和改变观察点的同时观看一动态的场景。由于可以空时地采用不同的轨道，因此没有两个观察体验需要相同。通常，这是用使用少量摄像机来捕获一场景的高质量视频流的系统和过程来完成的。这不仅降低了与捕获视频流相关联的成本，所述视频流是通过现有的方法从多个观察点呈现场景所需的，而且它还使捕获系统可便携、因而是有利的。接着采用一种多视图的3D重构和遮蔽技术来从视频帧创建分层的显示，分层表示能够有效地压缩并交互式地回放所捕获的动态场景，而同时能进行实时的呈现。

更具体地说，交互式观察点视频生成系统具有一视频捕获子系统，该子系统包括用于捕获多个视频流的视频摄像机库、以及用于同步视频流的同步设备。总体上说，视频流可以表征为同时期捕获的视频帧的顺序组，各组描述了一场景的不同观察点。捕获子系统也可以包括用于在处理前保存视频流的存储设备。

视频摄像机以并行的方式排列，使得各个摄像机从一不同的观察点观看该场景。各个摄像机的视野与任一相邻摄像机的视野重叠了一个规定量(例如，每个摄像机的30度水平视野相对于两个相邻摄像机间的4-8度旋转)。各个摄像机相对于场景的目标对象或区域的距离、高度和水平位置被设立，以便形成连接摄像机各个观察点的期望路径。该路径可以是例如，水平或垂直角、或是从一端到另一端向上或向外掠的弧度。该路径的重要性在于，观察交互式观察点视频的用户能够选择一观察点来观察路径上任何地方的所捕获场景，即使它与摄像机位置之一不相符。

视频摄像机可以是高分辨率的摄像机，因为这会提高所生成的交互式观察点视频的质量。此外，摄像机会有同步锁相特征以便与同步视频流。而且会是有利的是，如果摄像机能把元数据添加到各个所生成的视频帧，则便于处理视频流。该元数据会是例如：摄像机的当前设置和曝光等级、以及时标。

除了摄像机和同步设备以外，捕获子系统包括一计算设备，该计算设备运行一个用于计算与各个视频流相关联的几何和光度参数的摄像机校准程序。而且，视频流的类型可以是可由计算机控制的类型。如果这样，上述计算设备也可用来运行一视频捕获程序，所述视频捕获程序基于预先设立的菜单或响应于用户输入来开启和关闭摄像机、并且调节它们的设置。

交互式观察点视频生成系统还采用上述计算设备或一不同的计算设备来运行一视频生成程序。通常，该生成程序用来首先产生在来自同步视频流的每组同时期帧内描述的场景的3D重构。在生成程序所测试的实施例中，为此采用一种基于分段的重构技术。对于每组同时期的帧，使用所产生的重构来为组中的每个帧计算一差异图。重构也可以用来在该组帧的所有摄像机视图间计算对应关系。这些对应关系然后可用于平衡组中帧之间的光度参数。而且，对于所考虑的组中的每个帧而言，有效景深(significant depth)不连续性的区域基于其差异图来标识。在这些区域内计算前景和背景信息。使用这一信息，可以为每个帧建立一分开的主层和边界层。主层由具有不同值的像素以及来自景深不连续性周围区域的背景信息组成，所述像素不显示超过规定阈值的景深不连续性。边界层由在景深不连续性超过所述阈值的附近区域内的前景信息组成。这样，产生了各个帧的分层表示。主层由该层中各个像素的色彩和景深来表征。然而，边界层不仅表征为各个像素的色彩和景深，还表征为该层中各个像素的不透明度值。注意到在视频生成程序的所测试的实施例中，把边界层扩大为包含与显示出超过阈值的景深不连续性的像素毗邻的规定数量的像素。这用来防止在下面将简述的呈现过程期间出现“攻击”。

交互式观察点视频生成呈现还可以包括：压缩上述的分层表示以便与视频的传输和/或存储。该压缩可以采用时间或空间的压缩技术，或在测试实施例中采用组合的时间和空间压缩方法。更进一步，所述生成程序可能有用于创建文件的文件生成程序模块，所述文件包括交互式观察点视频帧的分层表示以及前面计算的校准数据。

注意到，也可以采用视频生成程序来从计算机生成的视频流、而不是实际视频摄像机所捕获的帧中创建一交互式观察点视频。该情况下，校准数据会由生成程序直接提供。

用来播放交互式观察点视频的上述程序和显示系统具有一用户接口子系统，所述用户接口子系统用于输入用户观察点选择并且把所呈现的交互式观察点视频帧显示给用户。为此，系统包括某一类型的输入设备，用户采用该输入设备不断输入观察点选择，还包括用来向用户显示所呈现的交互式观察点视频帧的显示设备。此外，用户接口子系统可以包括一图形用户接口，该图形用户接口使用户能经由输入设备图解地指出观察点。

呈现和显示系统进一步包括呈现程序在其上运行的一计算设备。该呈现程序用来呈现交互式观察点视频的每个帧。通常，对于所呈现的每个帧，这包括首先标识当前的用户专用观察点。为了从所标识的观察点呈现交互式观察点视频的当前帧，接着标识从与被播放的视频当前时间部份相关联的一组同时期帧所需要的帧。这一般必须使用校准数据来确定与当前组中各个帧相关的观察点，并且确定当前用户选择的观察点是否与帧观察点之一相一致或落在两个帧之间。当所标识的观察点与视频帧之一的观察点相一致时，该帧被标识为呈现场景所需的帧。当所标识的观察点落在两个视频帧的观察点之间时，这两个帧都被标识为呈现场景所需的帧。

一旦表示了所需的帧，就获得与这些帧相对应的分层表示。这至少必须从交互式观察点视频数据中仅仅提取所需的帧数据。如果如上所述视频数据包含在文件内，则它一般需要被解码。为此可以采用呈现程序的选择性解码模块。而且，如果已经压缩了分层的帧数据，解码器模块就负责解压缩恢复特定帧所需的视频数据部份，所述特定帧是从期望观察点呈现场景所需的帧。

经解码的帧数据用来从目前被用户指定的观察点呈现交互式观察点视频的下一个帧。如果指定的观察点与和已解码帧相关联的观察点相一致，则这是直截了当的过程。然而，如果期望的观察点落在两帧之间，则牵涉到更多的呈现过程。在呈现过程的一个实施例中，对于两个输入帧的每一个，必须首先把考虑中的输入帧的主层投射到与当前用户专用观察点相对应的虚拟视图，然后还把考虑中的输入帧的边界层投射到虚拟视图。把所投射的边界层和所投射的主层混合，以便创建交互式观察点视频的最终形式帧。注意到，所投射层的混合包括以以下程度的正比例对每个层加权，所述程度是与该层相关的观察点与当前用户专用观察点的接近程度。

注意到，呈现过程还可以包括：把在所输入的分层帧表示内未发现的对象插入所呈现的帧。这些对象可以是计算机生成的或是基于图像的。

除了刚才所述的好处外，本发明的其它优点将从结合附图的以下详细描述中变得显而易见。

附图说明

参照以下描述、所附权利要求以及附图，将能更好地理解本发明的特定特征、方面和优点，附图中：

图1是组成用于实现本发明的示例性系统的通用计算设备的一示意图。

图2是一描述了根据本发明的交互式观察点视频捕获系统硬件配置的示例性

实施例的图像。

图3是一根据本发明为交互式观察点视频生成程序的一个实施例示出一般计算机程序模块结构的框图。

图4A和4B是一根据本发明的交互式观察点视频生成过程的一实施例的流程图。

图5是一根据本发明用于交互式观察点视频呈现程序一实施例的一般计算机程序模块的框图。

图6(a)-(c)是一系列图像，其示出根据本发明的交互式观察点视频呈现过程的结果示例。图6(a)和(c)表示了在两个观察点处从两个相邻的视频摄像机同时期捕获的帧。图6(b)是当用户专用观察点处在与图6(a)和(c)的图像相关的观察点之间时所呈现的帧的例子。

图7示出来自根据本发明创建的交互式观察点视频的一帧的一图像，其中插入了跳霹雳舞者的额外副本。

图8是描述根据本发明的交互式观察点视频呈现过程一实施例的流程图。

具体实施方式

在以下本发明优选实施例的描述中，参照了作为说明书一部分的附图，附图中示出其中能实现本发明的特定实施例。可以理解，可以使用其它实施例并作出结构上的变化，而不背离本发明的范围。

1.0 交互式观察点视频

能在观看视频的同时交互式地控制观察点是基于图像的呈现的全新应用。本发明的系统和过程如下提供这一能力：通过使用多个同步视频流与新颖的基于图像建模和呈现技术的组合，以交互式的观察点控制来呈现动态的场景。由于根据空时操作的可能性，任何中间视图可以在任何时刻合成，因此本发明的方法被称为交互式观察点视频。

本发明的交互式观察点视频系统和过程的一个关键优点在于：提供了最高可能质量的视图内插帧来提高观察体验，即使使用了较少的摄像机来捕获所观察的场景。这不容易实现。在光场呈现论文[12]中提出的一种方法是仅仅基于输入和虚拟摄像机的相对位置来对射线简单地重新采样。然而，如Lumigraph[8]和后续工作所说明的，为场景几何位置使用3D顶替者或代理会大大改进内插视图的质量。另一种方法是创建单个纹理图的3D模型[11]，但这一般和使用多个参考视图相比产生较差的结果。

本发明的系统和过程采用了几何位置辅助的基于图像的呈现方法，该方法要求一3D代理。一种可能性是使用单个全局多面体模型，例如在Lumigraph和Unstructed Lumigraph论文中[1]。另一种可能性是使用分层景深图像[16]中的每像素景深、Facade[6]中的偏移景深或者具有景深的子画面[16]。通常，为每个参考视图[13，7，10]使用不同的局部几何位置代理能产生较高质量的结果，因而采用该方法。

为了获得固定数量的输入图像的最高可能质量，使用了每像素的景深图。这些景深图由将要简要描述的新颖的3D重构技术产生。然而，即使有多个景深图，在生成新视图时仍然显示出呈现的人造效应，即由于前景到背景转换的突发性而造成的混叠(参差不齐)、以及由于混合的像素而造成的污染色，所述混叠和污染色在新的背景或对象上合成时变得可见。

这些问题用唯一的双层表示来解决。该表示通过首先在景深图di中定位景深不连续性而生成，在本发明一实施例中，还在像素周围创建边界色条。然后使用贝叶斯遮蔽[5]的一种变化来估计边界层和主层的色彩、景深和不透明度(α值)。为了减少数据大小，如下简述，可以随意地压缩多个经α遮蔽的景深图像。

在呈现时，选择与虚拟视图最为接近的两个参考视图。每个视图如下独立地呈现：通过使用相关的景深图来扭曲其双层中的每一层，并且在主层上合成边界层。然后，两个经扭曲的视图基于它们的接近性被混合成新的视图。或者，来自各个视图的主层和边界层可以被独立地呈现，然后被混合在一起。下面将给出这一过程的详细描述。

下面章节将给出本发明的交互式观察点视频系统和过程的细节。首先给出适用于实现本发明系统的可编程部份的计算环境。这后面是用于捕获和同步多个视频的交互式观察点视频捕获子系统的描述。然后给出交互式观察点视频系统程序的描述。

1.1 计算环境

在描述本发明的优选实施例以前，将给出其中能实现本发明各部份的适当计算环境的简要、一般描述。图1说明了一适当计算系统环境100的例子。计算系统环境100仅仅是适当计算环境的一个例子，而不限制本发明的用途或功能的范围。计算环境100也不应被视为与示例性操作环境100中所示的任一个组件或组件组合有任何相关性或有关的要求。

本发明可以用许多其它的通用或专用计算系统环境或配置来操作。本发明适用的公知计算系统、环境和/或配置的例子包括、但不限于：个人计算机、服务器电脑、手持或膝上型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程消费者电子设备、网络PC、微型计算机、大型计算机、包括上述系统或设备的任一个的分布式计算环境等等。

本发明可以用计算机可执行指令的一般上下文来描述，比如由计算机执行的程序模块。一般而言，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特定任务或实现特定的抽象数据类型。本发明还可以实际用于分布式计算环境中，其中由通过通信网络或其它数据传输媒质连接的远程处理设备来执行任务。在分布式计算环境中，程序模块及其它数据可以位于本地和远程存储媒质中，包括内存存储设备。

参考图1，用于实现本发明的示例性系统包括形式为计算机110的一通用计算设备。计算机110的组件可以包括但不限于：处理单元120、系统内存130、及把包括系统内存在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是多种类型总线结构的任一种，包括内存总线或内存控制器、外围设备总线、及使用任一多种总线结构的本地总线。通过示例但非限制，这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准联盟(VESA)本地总线及外围组件互连(PCI)总线(也称为Mezzanine总线)。

计算机110一般包括数种计算机可读媒质。计算机可读媒质可以是能由计算机110访问的任何可用媒质并包括易失性和非易失性的媒质、可移动和不可移动媒质。通过示例但非限制，计算机可读媒质可以包括计算机存储媒质和通信媒质。计算机存储媒质包括易失性和非易失性、可移动和不可移动媒质，它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现。计算机存储媒质包括但不限于：RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字化通用光盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁性存储设备、或用于存储期望信息并能由计算机110访问的任意其它媒质。通信媒质一般在诸如载波或其它传输机制这样的已调数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并且包括任意信息传递媒质。术语“已调数据信号”意指其一个或多个特性以对信号内信息进行编码的方式被设置或改变的信号。通过示例但非限制，通信媒质包括诸如有线网络或直接线连接这样的有线媒质、以及诸如声音、RF、红外这样的无线媒质及其它无线媒质。上述的任意组合应该包含在计算机可读媒质的范围内。

系统内存130包括计算机存储媒质，其形式为易失性和/或非易失性内存，比如只读内存(ROM)131和随机存取内存(RAM)132。基本输入/输出系统133(BIOS)一般存储在ROM 131内，它包含例如在启动期间帮助在计算机110内的组件间传输信息的基本例程。RAM 132一般包含数据和/或程序模块，它们可以立即访问并且/或者当前由处理单元120在其上操作。通过示例但非限制，图1说明了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算机存储媒质。仅仅通过示例，图1说明了一对不可移动、非易失性磁性媒质进行读写的硬驱141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151、以及对可移动、非易失性光盘156进行读写的光盘驱动器155，比如CD ROM或其它光学媒质。示例性操作环境中可用的其它可移动/不可移动、易失性/非易失性计算存储媒质包括、但不限于：磁带盒、闪存卡、数字通用盘、数字视频磁带、固态RAM、固态ROM等等。硬驱141一般通过如接口140这样的不可移动存储器接口与系统总线121相连，且磁盘驱动器151和光盘驱动器155一般用如接口150这样的可移动存储器接口与系统总线121相连。

上面讨论并在图1中说明的驱动器和它们的相关计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，例如，所述硬驱141存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意到这些组件或者可与操作系统134、应用程序135、其它程序模块136和程序数据137相同，或者与它们不同。这里为操作系统144、应用程序145、其它程序模块146和程序数据147给出不同数字以说明它们至少是不同的副本。用户可以通过诸如键盘162和指示设备161这样的输入设备把命令和信息输入到计算机20中，输入设备通常称为鼠标、轨迹球或触板。其它输入设备(未示出)可以包括麦克风、游戏杆、游戏板、卫星式转盘、扫描仪等等。这些和其它输入设备经常通过与系统总线121耦合的用户输入接口160与处理单元120相连，但也可以用其它接口和总线结构连接，比如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过诸如视频接口190这样的接口与系统总线121相连。除了监视器之外，计算机还可以包括其它外部设备，如扬声器197和打印机196，它们可以通过输出外设接口190连接。也可以包括能捕获一图像序列193的摄像机192(比如数字/电子的静态或视频摄像机、或者胶片/照片扫描仪)作为个人计算机110的输入设备。而且，尽管仅描述了一个摄像机，然而可以包括多个摄像机作为个人计算机110的输入设备。来自一个或多个摄像机的图像193经由适当的摄像机接口194被输入个人计算机110。该接口194连到系统总线121，从而能把图像路由到且保存在RAM 132中，或者与计算机110相关联的其它数据存储设备之一中。然而注意到，图像数据也可以从任一上述的计算机可读媒质被输入到计算机110中，而无需使用摄像机192。

计算机110可以工作在网络化环境中，该环境使用与诸如远程计算机180这样的一个或多个远程计算机之间的逻辑连接。远程计算机180可以是一个人计算机、一服务器、一路由器、一网络PC、一对等设备或其它公共网络节点，并且一般包括上述与计算机110有关的许多或全部元件，尽管图1中仅说明了内存存储设备181。图1所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但可以还包括其它网络。这种网络环境在办公室、企业范围计算机网络、企业内部网和互联网中是常见的。

当用于LAN网络环境中时，计算机110通过网络接口或适配器170与LAN 171相连。当用于WAN网络环境中时，计算机110一般包括用于在诸如互联网这样的WAN 173上建立通信的调制解调器172或其它装置。调制解调器172可以是内部或外部的，它可以通过用户输入接口160或其它适当机制与系统总线121相连。在网络化环境中，关于计算机110所述的程序模块或其部分可以存储在远程内存存储设备中。通过示例但非限制，图1说明了驻留在内存设备181上的远程应用程序185。可以理解，所示网络连接是示例性的，也可以使用在计算机间建立通信连接的其它装置。

现在已讨论了示例性的操作环境，该说明章节的其余部份将会致力于描述交互式的观察点视频系统硬件、程序模块结构和模块本身。

1.2 交互式的观察点视频捕获系统

通常，交互式观察点视频捕获系统包括捕获上述多个视频流所需的硬件和支持软件。捕获系统硬件包括以并行方式(side-by-side)排列的视频摄像机的库。此外，摄像机的具有会聚的配置，使得各个摄像机的视野与相邻摄像机的视野重叠一个规定量(例如30度)。摄像机相对于目标对象或区域的方向根据期望的结果而变化。换言之，各个摄像机离开目标对象或区域的距离或者其相对于目标的高度和/或水平位置会发生变化。例如，一种有用的布局是把摄像机置于水平的弧度上，如图2所示。这会导致用户能从连接这些摄像机的水平弧度上的任何有利位置观看到场景。因此，用户会觉得他们能在目标周围的弧度上水平地移动。摄像机库的另一种可采用的配置是垂直弧度。这会导致用户能从有利位置观看到场景，看上去像是用户升到目标对象或区域以上。摄像机无需全部水平或垂直排列。例如，摄像机可以在基本上水平的配置中对角排列，但从一端向上掠到另一端。这会使观看者有这样的印象：他或她能同时在水平移动和上升时观看到对象。通常，通过沿着期望的路径排列摄像机可以创建任何观察路径。

摄像机可以是任何适当的视频摄像机，然而数字视频摄像机是优选的。如果不采用数字摄像机，则每个视频帧在执行进一步处理前将需要被数字化，所述进一步处理在后续章节内描述。此外，虽然视频摄像机无需是高分辨率的摄像机，然而如果采用高分辨率的摄像机将会提高所产生的交互式观察点视频的质量。更进一步的是，为了帮助同步视频流，如果摄像机的类型是可由计算机远程控制的类型将会是有利的，计算机可以远程控制摄像机启动和停止以及调节摄像机设置。因此，用户能通过计算机同时控制所有的摄像机。而且，会期望有同步锁相能力的摄像机以便于同步它们的视频馈入。如果每个摄像机把元数据加到各个视频帧对于将来处理是有利的，所述元数据表示当前的摄像机设置和曝光时间以及时标。

再次参照图2，示出了本发明的视频捕获系统硬件的示例性配置。该例中，八个摄像机200沿着水平弧度排列。使用高分辨率(例如1024×768)的彩色摄像机来以15fps捕获视频，镜头为8mm，产生约为30度的水平视野。

本发明视频捕获系统的另一关键特征是能实时捕获来自摄像机的同步视频流。为了完成这一任选，能接收和同步来自摄像机的单独馈入的设备是有利的，比如用于保存同步视频流数据的设备。在图2所示的示例配置中，全部输入视频的实时同步和存储由两个集线器单元202和硬驱库204进行处理。每个集线器202同步来自四个摄像机的馈入，并且通过光纤电缆把四个未经压缩的视频流导入硬驱库204。两个集线器202经由FireWire电缆被同步，以确保全部八个视频馈入是同步的。在系统的另一种实现中，每个摄像机可以拥有其自身的记录设备，比如DV带、VHS带等等。然后在记录后把视频转移到硬盘。

上述计算机206运行一个为控制多个摄像机而设计的视频捕获程序。实质上，视频捕获程序可以是能同时开启和关闭多个视频摄像机、以及调节各个摄像机的摄像机设置(例如曝光时间、白平衡、焦距等)的任何常规程序。实践中，适当的摄像机设置会在捕获会话前用标准方法来确定，视频捕获程序会用来把所有的摄像机都调节到这些设置。捕获程序也在预先设立的时间、或者在用户命令输入时，同时开启全部摄像机。同样，捕获程序在预先设立的时间、或者在用户命令输入时，同时停止全部摄像机。

除了视频流的捕获和存储以外，交互式观察点视频捕获系统也包括摄像机校准程序，该程序可以在用于控制摄像机的同一台计算机或者一台不同的计算机上运行。摄像机在每个捕获会话前被校准，以便获得3D重构所必要的全部摄像机属性。这些属性包括几何(例如固有和外在的摄像机参数)参数以及光度(例如曝光时间、白平衡、渐晕)参数。在所测试的实施例中，几何摄像机参数用Zhang[24]的校准技术获得。该过程一般包括移动一校准模式，所述校准模式已经被安装在各个摄像机前的平面上。由描述校准模式的各个摄像机所生成的视频流然后被分析，以便恢复上述的摄像机属性。摄像机参数和视频流一起被保存并被提供给下面将描述的交互式观察点视频生成程序。

1.3 交互式观察点视频系统程序

交互式观察点视频系统也包括用于生成交互式观察点视频并将其呈现给用户用以回放的计算机程序。下面将描述组成这些程序的每一个的结构和程序模块。

1.3.1 交互式观察点视频生成程序结构

参照图3，由上述视频捕获系统生成的视频流312以及摄像机校准数据312首先被送入3D重构模块进行处理。3D重构模块300的用途是：为每一组同时期捕获的视频帧内的每个帧，生成高质量的照片一致的对应关系以及差异图。此外，一旦对应关系已知，重构模块300就可以平衡每一组帧的光度参数。

每个所生成的差异图都由遮蔽模块(matting module)302处理。一般而言，遮蔽模块302负责基于其差异图在一帧内标识出有效景深不连续性的区域。该信息接着被提供给分层表示模块304，在本发明系统的一个实施例中，分层表示模块304生成了一主层和一边界层，所述主层由这样的像素组成：所述像素与一帧内未显示出有效景深不连续性和背景信息的区域是景深不连续性周围的区域相关联，所述边界层由从与有效景深不连续性的区域相关联的像素而来的前景信息组成。因此，为了来自各个摄像机的视频流的每一个帧创建了双层表示。

双层视频帧表示接着被任选地提供给压缩模块306。虽然数据压缩是任选的，但注意到，由上述摄像机库中每一个摄像机所生成的每帧的双层会表示一显著的数据量(例如对于以15fps记录了1秒的8个摄像机约为未经压缩的800MB)。因此，任何数据压缩都会有助于其发送和/或存储。这一模块的任选特性在图3中通过使用虚线框来表示。

双层视频帧表示，无论是否经压缩，都接着被传送给文件生成模块308。此外，前面获得的摄像机校准数据314被提供给文件生成模块308。实质上，文件生成模块308对双层视频帧表示和校准数据进行编码，以便直接发送到上述的交互式观察点视频呈现程序供处理，或者发送到存储器用于将来发送到呈现程序。在本发明一实施例中，摄像机校准数据314位于视频文件标题中。

注意到，虽然上述交互式观察点视频生成程序的优选操作模式是采用被捕获场景的基于图像的表示，然而也可能取而代之地使用3D计算机成像来实现本发明的系统和过程。在该替代实施例中，3D重构模块被删除，取而代之地经由3D计算机成像模块310把计算机生成的视频帧输入遮蔽模块302。这样，也不需要前面所述的捕获系统。同样，这里成像模块310的任选特性在图3中通过使用虚线框来表示。

代替摄像机捕获的帧而输入的合成帧仍会显示出前面结合实时视频流的描述而描述的相同属性。此外，会为了各个合成的视频流而非实际摄像机校准数据，把虚拟摄像机参数信息输入到文件生成模块中。合成帧和摄像机参数数据然后会以和基于图像的数据相同的方式被处理。这样，为说明本发明的其余描述，关于被提供给分层表示模块的帧数据是基于图像的还是合成的不会作出区别。同样，关于摄像机是真实还是虚拟的、以及摄像机参数是被计算的还是被合成的也不会作出区别。

1.3.1.1 3D重构模块

在开发视图内插所用的立体视觉过程时所需要的准确性要求与3D重构所使用的标准立体算法的准确性要求不同。特别是，与内插图像强度值的误差相比，差异的误差并不重要。例如，与高纹理区域内相同的差异误差相比，在低纹理区域(比如白墙)内的多像素差异误差会导致内插图像内少得多的强度误差。特别是，场景中的边缘或直线需要被正确地呈现。

传统的立体算法区域产生差异不连续性周围的错误结果。不幸的是，这种误差在内插场景中产生了一些最显著的人造效应，因为差异不连续性一般符合强度边缘。为此，用于视图内插的立体算法必须正确地匹配包括差异不连续性在内的强度边缘周围的像素。

最近已经提出了一种称为基于分段立体的立体视觉的新方法。这些方法在立体计算前把图像分段成可能有相似或平坦差异的区域。然后为每个分段强加一平坦性约束。Tao等人[17]使用了一平面约束，而Zhang和Kambhamettu[22]使用了用于本地支持的分段。这些方法在准确处理差异不连续性时显示出令人期望的结果。

虽然可以采用上述基于分段的立体算法来完成3D重构任务，然而本发明的测试实施例采用了一种新的基于分段的方法。该新方法是题为“Color Segmentation-Based Stereo Reconstruction System And Process”的待批申请的主题，该专利被转让给共同受让人。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿＿。

1.3.1.2 遮蔽模块

在立体计算期间，假设每个像素都有唯一的差异。通常不是这样，因为对象边界上的一些像素会接收来自背景和前景区域两者的作用。然而，如果在基于图像的呈现期间使用了原始的混合像素色彩，则会产生可见的人造效应。

为了解决这一问题，在景深不连续性的附近表示了小的区域，所述小区域被定义为大于λ像素(例如4像素)的任何差异上涨。更具体地说，使用遮蔽来为这些区域内的每个像素找到前景和背景信息。前景信息被保存在边界层内，而背景信息以及从不在景深不连续性的λ像素内的像素而来的信息被保存在主层内。为了防止在下述的呈现过程期间出现攻击，扩大了边界遮蔽(例如向前景像素区域内部一像素)。该像素标记信息然后被传递到分层表示模块。

虽然上述遮蔽任务可以用任何适当的常规遮蔽技术来完成，然而本发明的测试实施例采用了一种新方法。该新方法是题为“A System And Process For GeneratingA Two-Layer，3D Representation Of A Scene”的待批申请的主题，该申请被转让给本发明的共同受让人。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿＿。

1.3.1.3 分层表示模块

分层表示模块拥有与各个帧相关的数据、以及由遮蔽模块生成的像素标记信息，并且为边界遮蔽估计色彩、景深和不透明度(即α值)。这可以用遮蔽技术来完成，比如贝叶斯图像遮蔽[5]。注意到[5]未估计景深，而是仅估计了色彩和不透明度。景深可以通过使用前景和背景像素区域内附近景深的α加权平均来估计。所产生的前景像素数据被指定为所处理帧的边界层。接着，背景像素数据以及从不在边界遮蔽内的其余像素而来的像素数据一起用来组成该帧的主层。

因而，分层表示模块的输出是从每一个上述摄像机而来的视频流每一个帧的边界层，所述输出表示了层内的各个像素、像素的色彩B_C、景深B_D以及不透明度α。此外，为每个帧输出一主层，标识了该层内的各个像素、像素的色彩M_C、景深M_D。

虽然上述分层任务可以用任何适当的常规分层技术来完成，然而本发明的测试实施例采用了一种新方法。该新方法是题为“A System And Process For GeneratingA Two-Layer，3D Representation Of A Scene”的待批申请的主题，该申请被转让给本发明的共同受让人。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿＿。

1.3.1.4 压缩模块

压缩可任选地使用，用来把与本发明相关的大数集减少为一可管理的尺寸，并且用于支持较快的回放。本发明有利的是采用任何常规的基于时间的压缩方案，例如MPEG-4(ISO/IEC 14496)。然而，由于每个摄像机是同一场景的捕获部份，因此存在一个机会，通过使用摄像机间的(即空间的)冗余来压缩数据。时间预测使用来自前一帧的运动补偿的估计，而空间预测使用一参考摄像机的纹理和差异图，所述纹理和差异图根据压缩被转换成空间相邻摄像机的观察点。例如，MPEG-4包含一种压缩立体数据的标准，其使用了相邻观察点的相似性。因此，通常使用时间或空间冗余的编解码器适用于该任务。然而，通过组合两种压缩方法可以达到最大程度的压缩。

虽然上述组合压缩方案可以用现有的时间和空间压缩技术来实现，然而本发明的测试实施例采用了一种新的集成方法。该新方法是题为“A System And ProcessFor Compressing And Decompressing Multiple，Layered，Video Streams EmployingSpatial And Temporal Encoding”的待批申请的主题，该申请被转让给本发明的共同受让人。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿＿。

1.3.2 交互式观察点视频生成过程

上述程序结构可用来执行以下过程，在图4A-B所示的本发明一实施例中生成一交互式观察点视频。首先，从上述视频捕获系统输入同步的视频流(过程动作400)。然后执行3D重构来计算所有摄像机视图间的对应关系、以及来自输入视频流的每组同时期捕获的视频帧内每一个帧的差异图(过程动作402)。此外，一旦对应关系已知，就平衡每组帧的光度参数(过程动作404)。

接着以规定的顺序选择每一个帧(过程动作406)。更具体地说，这必须选择每组到来的同时期捕获视频帧内的每一个帧(以任一期望顺序)、然后对于所输入的下一组帧也执行同样操作依此类推。对于每个所选的帧，有效景深不连续性的区域基于其差异图来标识(过程动作408)。该信息用来生成一边界层和一主层，所述边界层由从与具有有效景深不连续性的区域相关联的像素而来的前景信息组成，所述主层由其余信息组成(过程动作410)。然后确定是否有前面未选择的帧剩余待处理(过程动作412)。如果是，就重复过程动作406到412，直到处理了所有帧为止。这样，最终为每一个帧创建了双层表示。如果没有剩余供选择的帧，则生成过程继续任选地压缩视频帧数据(过程动作414)。这可以用例如时间(即在同时期捕获的帧的各组之间)和空间(即在同一组内的各帧之间)压缩技术来完成。注意到，这一最后动作的任选特性在图4中用一虚线框来表示。无论帧数据是否被压缩，下一过程动作416都是生成一交互式观察点视频，所述视频包含从视频捕获系统提供的分层视频帧表示以及摄像机校准数据。

注意到，在上述交互式观察点视频生成过程中，从视频捕获系统输入的基于图像的视频流可以被上述计算机生成的视频数据所代替。在这一情况下，摄像机校准数据也会用同一类型的虚拟数据来代替。

1.3.3 交互式观察点视频呈现程序结构

参照图5，上述文件生成模块所生成的交互式观察点视频文件504首先被送入选择性解码模块500。一般而言，选择性解码模块500仅解码到来的文件中为从观看视频的用户所选的有利位置呈现该视频的当前帧所需的那些部份。更具体地说，模块500对呈现模块502所标识的文件部份进行解码(下面将描述)，以便恢复与从期望观察点呈现场景所需的特定视频帧相关联的分层视频帧数据。这样，必须解码可能的最少量数据，从而加速该过程并且提供了实时的呈现能力。

经解码的分层帧数据被提供给呈现模块502。一般而言，该模块502拥有帧数据并且从用户所指定的有利位置为用户正在观看的当前视频部份呈现一场景视图。这包括首先获得当前用户输入506、然后生成期望的视图。

1.3.3.1 选择性解码模块

选择性解码模块的目的是仅解码从当前用户所选的有利位置呈现视频中所捕获的场景所需要的信息。实际上，这必须对与被呈现视频中当前时间位置相关的同时期捕获帧的组中的帧进行解码，所述被呈现的视频必须被解码以便获得从特定用户选择的有利位置呈现当前视频部份中所述的场景视图所需的分层视频帧数据。如果这一有利位置符合摄像机之一所捕获的场景视图，则仅需要解码与该帧相关的数据。然而，如果期望的观察点落在两个摄像机视图之间的某处，则必须解码与这两个相邻摄像机均相关的帧数据以便从期望的观察点呈现场景。

从期望的有利位置呈现场景所需的特定帧由呈现模块(下面将描述)来标识。一旦被标识，就用适当的解码技术对与所标识的帧相关联的分层视频帧数据进行解码，所述适当的解码技术可应用于在上述压缩和文件生成模块中采用的压缩和编码方案类型。在本发明测试实施例中采用上述集成方法的情况下，解码像在以下待批申请中所述那样完成：该申请题为“A System And Process For Compressing AndDecompressing Multiple，Layered，Video Streams Employing Spatial And TemporalEncoding”。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿＿。

除了对来自交互式观察点视频文件的帧数据进行解码以外，解码模块还解码上述的摄像机校准数据。如上所述，该数据会在文件标题中或作为元数据。

1.3.3.2 呈现模块

呈现模块的任务是：首先处理与期望被呈现的场景观察点有关的用户输入，并且标识与被呈现的视频当前时间部份相关的该组同时期捕获帧内的帧，所述帧是呈现期望视图所需的帧。为了完成这一任务，用交互式观察点视频文件中包含的上述摄像机校准数据来初始化呈现模块。该校准数据包括用于捕获与被观察视频相关的场景的各个视频摄像机的位置和观察点信息。给出这一信息后，呈现模块就计算摄像机观察点的位置。如上所述，用户能沿着连接摄像机观察的路径指定任一观察点，两个最外面的摄像机表示可能观察点选择的端点。如上所述，所选的观察点可以符合由摄像机之一所捕获的场景视图(或者从一虚拟摄像机位置合成的视图)。在这一情况下，只有与该摄像机相关的“当前”帧被标识为是呈现期望视图所需的。然而，通常情况下会是观察点落在两个相邻摄像机的观察点之间。在这后一种情况下，呈现模块标识出与这两个相邻摄像机相关的的当前帧。

对于用户输入来说，该信息可以以任何适当的方式获得，比如通过某一类型的用于输入和处理用户观察点选择的用户界面。例如，该界面可以包括用于在显示设备(例如计算机监视器、显示屏、3D电视机等等)上向用户显示的图形用户界面(GUI)。该GUI会包括某一图形排列，该图形排列使用户能在可能的观察点中间、表示出他希望观看被呈现的当前视频部份的视频中捕获的场景的观察点。用户也可以在视频播放时改变期望的观察点。这些选择会通过用户使用任一标准输入设备(例如鼠标、游戏杆、视觉跟踪设备等等)与GUI相接而作出。

一旦已经标识了呈现期望视图所需的帧，呈现模块就指示选择性解码模块来解码所需的帧数据。选择性解码模块的帧数据输出由各个所提供帧的5个数据平面所组成：主层色彩、主层景深、边界层α遮蔽、边界层色彩以及边界层景深。在期望的观察点符合摄像机观察点之一时，仅使用该摄像机的主层和边界层数据平面来重构场景。然而，在期望观察点落在两个摄像机观察点之间时，呈现过程就更加复杂。在本发明呈现模块的一个实施例中，其中要求来自两个摄像机观察点的数据来从用户指定的观察点呈现一场景视图，来自各个摄像机的主层和边界层数据被投射到期望的观察点。这可以用常规的呈现方法以及交互式观察点视频文件中提供的摄像机校准数据来完成。然后，所投射的主层和边界层混合以生成最终帧。这里还是采用常规的混合方法，其中每层对于最终视图的作用都是按照相关摄像机的观察点离开期望观察点的接近程度的比例加权的。换言之，如果期望观察点相对于另一摄像机观察点较接近于摄像机观察点之一，则与较接近的摄像机相关的投射层比另一个加权得更多。

虽然可以采用常规的视图投射和呈现技术来完成上述呈现任务，然而本发明的测试实施例采用了一种新方法。该新方法是题为“An Interactive，Real-TimeRendering System And Process For Virtual Viewpoint Video”的待批申请的主题，该申请被转让给共同受让人。该待审的专利申请提交于＿＿＿，转让序列号为＿＿＿。还注意到，上述呈现过程可以用图形处理单元、软件呈现技术或其两者来完成。图6(a)-(c)示出上述呈现过程的结果示例。图6(a)和(c)表示了从位于不同观察点的两个相邻视频摄像机同时期捕获的帧。图6(b)是在用户指定的观察点处在与图6(a)和(c)的图像相关的观察点之间时所呈现的帧示例。

如上所述，上述交互式观察点视频生成程序的优选操作模式是采用被捕获场景的基于图像的表示。然而，另外把合成元素引入所呈现的场景并不超过本发明的范围。因此，在呈现模块的一个实施例中(如图5所示)，把3D对象数据508输入呈现模块用于结合到当前被呈现的帧内。在一实施例中，该输入会包括：从与所选观察点对应的一观察点呈现动画对象所必要的数据；以及用于把对象结合在被呈现帧内一预先设立位置的定位信息。对象可以随时间而改变形状(即以便在不同的被呈现帧内具有不同的外观)，或者具有静态的外观。而且，被呈现帧内结合对象的位置可以随时间而变化(即以便在不同的被呈现帧内有不同的位置)，或者可以位于各个连续被呈现帧内的同一位置。

基于图像的对象也可以在呈现过程期间被插入场景。例如，图7示出按照本发明创建的交互式观察点视频中的一个帧，其中已经插入了霹雳舞者的额外副本。这一效应这样实现：首先用一景深阈值来“拖拽”舞者的遮蔽、然后使用z-阻尼把所“拖拽”的子画面插入原始视频中。

1.3.4 交互式观察点视频呈现过程

可以采用上述呈现程序结构来执行以下过程，以便在图8所示的本发明一实施例中呈现交互式的观察点视频。一般而言，对于所呈现视频的每一个帧而言，当前用户指定的观察点首先被输入(过程动作800)。然而注意到，可以仅输入所指定观察点的变化，而不是每次呈现视频的一个新帧时都输入观察点。该情况下，除非已经接收到观察点的变化，否则会假设上一次指定的观察点仍旧有效，并且会用于呈现视频的当前帧。

一旦设立了用户指定的观察点，下一过程动作802就是标识与被呈现视频的当前帧相关的该组同时期捕获的输入帧内的帧，所标识的帧是生成期望视图所需的帧。然后解码所标识的帧(过程动作804)。

接着，用经解码的视频数据来呈现交互式观察点视频的当前帧(过程动作806)。该帧会描述与从用户目前指定的观察点所见的视频当前时间部份相关的场景。如果期望观察点落在用于捕获场景的两个相邻摄像机的观察点之间，这可能要求合成该帧。注意到，可以任意地修改上述过程以便也在上述呈现过程期间把计算机生成的或基于图像的对象插入该场景，然而这一动作未在图8中示出。

2.0 可能的应用

交互式观察点视频系统和过程可以有多种应用。在其基本级别，用户能播放视频并且在他们观看时连续地改变他们的观察点。因此，交互式观察点视频使用户能像交互式3D媒质一样体验视频。这很可能改变观看动态事件的方式并且提高游戏的逼真度。所关注的动态事件的例子有：体育比赛(棒球、篮球、滑板、网球等等)、教育片(怎样打高尔夫、武术等等)以及表演(Cirque de Soleil、芭蕾、现代舞等等)。而且，如果有足够的带宽可用，则视频可以被广播或多播传送，从而给出一种可被描述为3D电视的视觉体验。

然而，本发明不限于在观看视频时改变观察点。它也可用于产生诸如空时操作等多种特殊效应。例如，用户可以使视频停住，并且从多个观察点观看所述的场景。用户也可以在从一个或多个观察点观看所述场景时播放该视频，然后倒转视频并从不同观察点观看该场景。再比如，视频可以以任何速度向前或向后播放，而同时根据需要改变观察点。

交互式观察点的上述特征不仅对于业余观看者是有用的，而且对于电视和电影工业特别有用。为了代替确定要捕获那部份场景以及提早从哪个观察点捕获的辛苦过程，其中还可能会丢失最期望的快照，可以使用本发明的系统和过程。例如，一场景会首先被捕获作为一交互式观察点视频。接着，电影制作者会观看该视频并且为每一个快照(甚至逐帧地)选择对于最终电影期望的观察点。而且，上述对象插入特性也是对于电影制作者有利的一项工具。因此，这里给出的技术使我们更接近于把基于图像的(和基于视频的)呈现作为将来媒体创作和传送的整体部份。

3.0 参考书目

[1]Buehler，C.，Bosse，M.，McMillan，L.，Gortler，S.J.，和Cohen，M.F.著作，2001年，“Unstructured lumigraph rendering”，发表于SIGGRAPH会刊2001(8月)，第425-432页。

[2]Carceroni，R.L.和Kutulakos，K.N.著作，2001年，“Multi-view Scenecapture by surfel sampling：From video streams to non-grid 3D motion，shape andreflectance”，发表于第八届国际计算机影像会议(ICCV 2001)，第II册，第60-67页。

[3]Carranza，J.，Theobalt，C.，Magnor，M.A.和Seidel，H.-P.著作，2003年，“Free-viewpoint video of human actors”，发表于ACM图形学报22，3(7月)，第569-577页。

[4]Chang，C.-L.等人著作，2003年，“Inter-view wavelet compression oflight fields with disparity-compensated lifting”，发表于可视通信和图像处理杂志(VCIP 2003)。

[5]Chuang，Y.-Y.等人著作，2001年，“A Bayesian approach to digitalmatting”，发表于计算机图像和模式识别会议(CVPR’2001)，第II册，第264-271页。

[6]Debevec，P.E.，Taylor，C.J.和Malik，J.著作，1996年，“Modeling andrendering architecture from photographs：A hybrid geometry-and image-basedapproach”，发表于计算机图形学杂志(SIGGRAPH’96)(8月)，第11-20页。

[7]Debevec，P.E.，Yu，Y.和Borshukov，G.D.著作，1998年，“Efficientview-dependent image-based rendering with projective texture-mapping”，发表于Eurographics Rendering Workshop杂志1998，第105-116页。

[8]Gorler，S.J.，Grzeszczuk，R.，Szeliski，R.和Cohen，M.F.著作，1996年，“The lumigraph”，发表于计算机图形学(SIGGRAPH’96)会刊，ACMSIGGRAPH，第43-54页。

[9]Hall-Holt，O.和Rusinkiewicz，S.著作，2001年，“Stripe boundary codesfor real-time structured-light range scanning of moving objects”，发表于第八届国际计算机影像会议(ICCV 2001)，第II册，第359-366页。

[10]Heigl，B.等人著作，1999年，“Plenoptic modeling and rendering fromimage sequences taken by hand-held camera”，发表于DAGM’99，第94-101页。

[11]Kanade，T.，Rander，P.W.和Narayanan，P.J.著作，1997年，“Virtualized reality：constructing virtual worlds from real scenes”，发表于IEEE多媒体杂志1，1(1月-3月)，第34-47页。

[12]Levoy，M.和Hanrahan，P.著作，1996年，“Light field rendering”，发表于计算机图形学(SIGGRAPH’96)会刊，ACM SIG-GRAPH，第31-42页。

[13]Pulli，K.等人著作，1997年，“View-based rendering：Visualizing realobjects from scanned range and color data”，发表于第八届Eurographics Workshopon Rendering会刊。

[14]Scharstein，D.和Szeliski，R.著作，2002年，“A taxonomy and evaluationof dense two-frame stereo correspondence algorithms”，发表于国际计算机影像杂志47，1(5月)，第7-42页。

[15]Seitz，S.M.和Dyer，C.M.著作，1997年，“Photorealistic scenereconstruction by voxel coloring”，发表于计算机影像和模式识别会议(CVPR’97)，第1067-1073页。

[16]Shade，J.，Gortler，S.，He，L.-W.和Szeliski，R.著作，1998年，“Layereddepth images”，发表于计算机图形学(SIGGRAPH’98)会刊，ACM SIGGRAPH，Orlando，第231-242页。

[17]Tao，H.，Sawhney，H.和Kumar，R.著作，2001年，“A global matchingframework for stereo computation”，发表于第八届国际计算机影像会议(ICCV2001)，第I册，第532-539页。

[18]Vedula，S.，Baker，S.，Seitz，S.和Kanade，T.著作，2000年，“Shape andmotion carving in 6D”，发表于计算机影像和模式识别会议(CVPR’2000)，第II册，第592-598页。

[19]Wexler，Y.，Fitzgibbon，A.和Zisserman，A.著作，2002年，“Bayesianestimation of layers from multiple images”，发表于第七届欧洲计算机影像会议(ECCV 2002)，第III册，第487-501页。

[20]Wilburn，B.，Smulski，M.，Lee，H.H.K.和Horowitz，M.著作，2002年，“The light field video camera”，发表于SPIE电子成像：媒体处理器杂志，第4674册，第29-36页。

[21]Yang，J.C.，Everett，M.，Buehler，C.和McMillan，L.著作，2002年，“Areal-time distributed light field camera”，发表于Eurographics Workshop onRendering杂志，P.Debevec和S.Gibson，Eds，第77-85页。

[22]Zhang，Y.和Kambhamettu，C.著作，2001年，“On 3D scene flow andstructure estimation”，发表于计算机影像和模式识别会议(CVPR’2001)，第II册，第778-785页。

[23]Zhang，L.，Curless，B.和Seitz，S.M.著作，2003年，“Spacetime stereo：Shape recovery for dynamic scenes”，发表于计算机影像和模式识别会议，第367-374页。

[24]Zhang，Z.著作，2000年，“A flexible new technique fbr cameracalibration”，发表于模式分析和机器智能的IEEE学报22，11，第1330-1334页。

Claims

1.一种用于生成交互式观察点视频的计算机实现过程，包括使用计算机来执行以下过程动作：

输入多个同步视频流和校准数据，其中每个视频流都描述了同一场景的一部分，所述校准数据定义了与每个视频流相关的几何和光度参数；以及

对于来自同步视频流的每组同时期帧，

生成所述场景的一3D重构，

使用所述重构来为该组同时期帧内的每个帧计算一差异图，以及

对于该组同时期帧内的每个帧，

基于差异图来标识有效景深不连续性的区域，

生成一主层和一边界层以便为所考虑的帧生成一分层表示，所述主层包括与一帧内不显示出超过规定阈值的景深不连续性的区域相关联的像素信息、以及来自景深不连续性超过该阈值的区域的背景像素信息，所述边界层包括与景深不连续性超过该阈值的区域相关联的前景像素信息。

2.如权利要求1所述的过程，其特征在于，还包括以下过程动作：

使用重构来计算所有摄像机视图间的对应关系；以及

一旦计算了对应关系就平衡每一组帧的光度参数。

3.如权利要求1所述的过程，其特征在于，还包括以下过程动作：压缩为交互式观察点视频的帧生成的分层表示以便于视频的传输和/或存储。

4.如权利要求3所述的过程，其特征在于，所述压缩分层表示的过程动作包括：在同时期的几组交互式观察点视频帧之间使用时间压缩技术。

5.如权利要求4所述的过程，其特征在于，所述压缩分层表示的过程动作包括：在同一同时期组的帧内的交互式观察点视频帧之间使用空间压缩技术。

6.如权利要求3所述的过程，其特征在于，所述压缩分层表示的过程动作包括：在同一同时期组的帧内的交互式观察点视频帧之间使用空间压缩技术。

7.如权利要求1所述的过程，其特征在于，还包括以下过程动作：生成一交互式观察点视频文件，所述文件包括从所输入的视频流的帧和所述校准数据生成的分层表示。

8.如权利要求1所述的过程，其特征在于，所述多个同步视频流和校准数据从多个视频摄像机所捕获的图像帧导出。

9.如权利要求1所述的过程，其特征在于，所述多个同步视频流和校准数据是计算机生成的。

10.如权利要求1所述的过程，其特征在于，所述生成场景的3D重构的过程动作包括以下动作：采用基于分段的重构技术。

11.如权利要求1所述的过程，其特征在于，所述生成主层的过程动作包括：为所述层中的每个像素设立色彩和景深的动作，其中生成边界层的过程动作包括：为所述层中的每个像素设立色彩、景深和不透明度的动作。

12.如权利要求1所述的过程，其特征在于，所述生成边界层的过程动作包括以下动作：扩大所述层以包含与显示出超过阈值的景深不连续性的像素相邻的规定数量的像素。

13.一种计算机可读介质，其具有用于执行权利要求1所述过程动作的计算机可执行指令。

14.一种用于生成交互式观察点视频的系统，包括：

视频捕获子系统，包括：

用于捕获多个视频流的多个视频摄像机，

用于同步视频流以创建同时期捕获的视频帧的一系列组，每组均描述了

同一场景的一部分，

一个或多个通用计算设备；

具有可由所述一个或多个通用计算设备的至少一个执行的程序模块的第一计算机程序，所述模块包括：

用于计算与每个视频流相关的几何和光度参数的摄像机校准模块；以及

具有可由所述一个或多个通用计算设备的至少一个执行的程序模块的第二计算机程序，所述模块包括：

3D重构模块，该模块从同步视频流中生成在每组同时期帧内描述的场景的3D重构，并且使用所述重构为该组同时期帧内的每个帧计算一差异图，

遮蔽模块，该模块为每组同时期帧内的每个帧、基于帧的差异图来标识有效景深不连续性的区域，

分层表示模块，该模块为每组同时期帧内的每个帧生成一主层和一边界层以为所考虑的帧产生一分层表示，所述主层包括与一帧内不显示出超过规定阈值的景深不连续性的区域相关联的像素信息以及来自景深不连续性超过该阈值的区域的背景像素信息，所述边界层包括与景深不连续性超过该阈值的区域相关联的前景像素信息。

15.如权利要求14所述的系统，其特征在于，所述多个视频摄像机以并行方式排列，使得每个摄像机都从一不同的观察点观看一场景。

16.如权利要求15所述的系统，其特征在于，每个摄像机的视野与任一相邻摄像机的视野重叠了一个规定量。

17.如权利要求15所述的系统，其特征在于，设立各个摄像机相对于场景的目标对象或区域的距离、高度和水平位置，以形成连接了摄像机观察点的规定路径。

18.如权利要求17所述的系统，其特征在于，所述规定路径基本是水平的弧度。

19.如权利要求17所述的系统，其特征在于，所述规定路径基本是垂直的弧度。

20.如权利要求17所述的系统，其特征在于，所述规定路径是从一端掠到另一端的基本水平的弧度。

21.如权利要求14所述的系统，其特征在于，一个或多个视频摄像机是高分辨率的摄像机。

22.如权利要求14所述的系统，其特征在于，所述视频摄像机包括一同步锁相特征。

23.如权利要求14所述的系统，其特征在于，每个视频摄像机把元数据加到它所生成的每个视频帧，所述元数据包括当前的摄像机设置以及摄像机的曝光程度以及一时标。

24.如权利要求14所述的系统，其特征在于，所述摄像机的类型是可经由所述一个或多个计算设备远程控制的摄像机，其中所述系统还包括具有可由所述一个或多个通用计算设备的至少一个可执行的程序模块的第三计算机程序，其中所述模块包括用于控制多个视频摄像机来同时打开或关闭并且调节它们的摄像机设置的视频捕获程序模块。

25.如权利要求14所述的系统，其特征在于，所述视频捕获子系统还包括用于在处理前保存视频流的存储设备。

26.如权利要求14所述的系统，其特征在于，所述第二计算机程序还包括用于压缩为交互式观察点视频帧生成的分层表示以便于视频的传输和/或存储的压缩程序模块。

27.如权利要求14所述的系统，其特征在于，所述第二计算机程序还包括一交互式观察点视频文件生成程序模块，该模块用于创建一文件，所述文件包括从输入的视频流的帧以及校准模块的输出生成的分层表示。

28.一种用于从包括视频帧分层表示和校准数据在内的数据呈现交互式观察点视频的计算机实现过程，所述视频帧从一系列的同时期捕获视频帧的组中生成，每组都描述了同一场景的一部分，所述校准数据包括与各个视频帧的捕获相关联的几何参数，所述过程包括使用计算机来为要被呈现的交互式观察点视频的每个帧执行以下的过程动作：

标识当前用户指定的观察点；

标识一组同时期捕获帧中与被呈现的视频当前时间部份相对应的帧，所标识的帧是从所标识的观察点呈现其中描述的场景所需的帧；

输入所标识的视频帧的分层表示；以及

使用所输入的分层帧表示从用户当前指定的观察点呈现交互式观察点视频的帧。

29.如权利要求28所述的过程，其特征在于，所述视频帧数据被压缩，其中输入所标识视频帧或数个帧的分层表示的过程动作包括：对为了获得所标识视频帧的分层表示所必要的视频帧数据部份进行解码。

30.如权利要求28所述的过程，其特征在于，标识一组同时期捕获帧中与被呈现的视频当前时间部份相对应的帧或数帧、所标识的帧是从所标识的观察点呈现其中描述的场景所需的帧，以上过程动作包括：

使用校准数据来确定与从中生成分层表示的每一个视频帧相关联的观察点；

每当所标识的观察点符合从中生成分层表示的一个视频帧的观察点时，把该帧标识为呈现场景所需的唯一帧；以及

每当所标识的观察点落在从中生成分层表示的两个视频帧的观察点之间时，把两个帧都标识为呈现场景所需的帧。

31.如权利要求28所述的过程，其特征在于，所述呈现交互式观察点视频的帧的过程动作包括：每当所标识的观察点落在与该组同时期捕获帧内的两个输入帧相关联的观察点之间时，从所述两个输入帧生成交互式观察点视频帧，所述两个输入帧与使用相关的校准数据呈现的视频的当前时间部份相对应。

32.如权利要求31所述的过程，其特征在于，每个输入帧的分层表示包括一主层和一边界层，所述主层包括与一帧内不显示出超过规定阈值的景深不连续性的区域相关联的像素信息、以及来自景深不连续性超过该阈值的区域的背景像素信息，所述边界层包括与景深不连续性超过该阈值的区域相关联的前景像素信息，其中从与被呈现的视频当前时间部份相对应的该组同时期捕获帧的两个输入帧生成交互式观察点视频帧的过程动作包括以下动作：

对于依次的两个输入帧的每一个，

把所考虑的输入帧的主层投射到与当前用户指定的观察点相对应的视景，以及

把所考虑的输入帧的边界层投射到与当前用户指定的观察点相对应的视景；

混合两个所产生的投射层组以创建交互式观察点视频的最终帧。

33.如权利要求32所述的过程，其特征在于，所述混合两个所产生的投射层组的过程动作包括以下动作：混合所投射的层，使得每个层和与用于创建所投射层的输入层相关联的观察点与当前用户指定观察点的接近程度成正比。

34.如权利要求28所述的过程，其特征在于，所述呈现交互式观察点视频的帧的过程动作还包括：把未在输入的分层帧表示中发现的对象插入被呈现的帧。

35.一种计算机可读介质，其具有用于执行权利要求28所述过程动作的计算机可执行指令。

36.一种使用包括视频帧分层表示和校准数据在内的数据呈现和显示交互式观察点视频的系统，所述视频帧从一系列的同时期捕获视频帧的组中生成，每组都描述了同一场景的一部分，所述校准数据定义了与各个视频帧的捕获相关联的几何参数，所述系统包括：

用于输入用户观察点选择并把所呈现的交互式观察点视频帧显示给用户的用户界面子系统，包括：

用户输入观察点选择所采用的输入设备，

用于向用户显示所呈现的交互式观察点视频帧的显示设备；

通用计算设备；

具有可由通用计算设备执行的程序模块的计算机程序，所述模块包括：

选择性解码模块，该模块为了要被呈现和显示的交互式观察点视频的每个帧对与视频帧分层表示相关联的指定数据进行解码，

呈现模块，该模块为了被呈现和显示的交互式观察点视频的每个帧：

标识当前用户选择的观察点；

向选择性解码模块指出从所标识观察点呈现所述场景需要一组同时期捕获的帧内的哪些帧，所指出的帧与被呈现和被显示的视频当前时间部份相对应；

从选择性解码模块得到经解码的帧数据；以及

使用经解码的帧数据从用户当前选择的观察点呈现交互式观察点视频的帧。

37.如权利要求36所述的系统，其特征在于，用户界面子系统还包括一图形用户界面，该图形用户界面使用户能在可能的观察点中间图解地表示出期望观看场景的观察点。