CN1754139A

CN1754139A - 用于数字视频内容的交互式网络共享的方法及装置

Info

Publication number: CN1754139A
Application number: CNA2003801099086A
Authority: CN
Inventors: 罗伊·佩亚; 迈克尔·米尔斯; 埃里克·霍费尔特; 约瑟夫·罗森; 肯尼斯·道贝尔
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2002-12-30
Filing date: 2003-12-22
Publication date: 2006-03-29
Also published as: US20130073981A1; WO2004062261A3; JP2006515476A; US20040125133A1; EP1579674A2; AU2003297451A8; KR20050087877A; US8307273B2; AU2003297451A1; WO2004062261A2

Abstract

本发明提供用于以交互方式创作、共享和分析数字视频内容的电子方法和装置。创作方法包括：显示可视数据，将每一遍历界定为一基于时间的帧序列，并注解和存储所述遍历的记录及其相关联的音频记录。界定所述遍历包括：通过相对于所述可视数据定位一覆盖窗口来以交互方式扫视所述可视数据，并通过调整所述覆盖窗口的大小来进行放大或缩小。在替代实施例中，可以一矩形布局或一圆柱形布局来显示所述可视数据。使用一集成图形界面来实施所述方法，所述集成图形界面包括一显示所述可视数据的概览区、一在所述覆盖窗口内显示当前数据的细节区、及一显示先前所存储的带注解的遍历记录的列表的工作表区。在另一方面中，所述带注解的遍历记录的工作表区列表是在一可使用一标准HTML浏览器通过网络访问的网络文档中公布，并且可由一网络用户社区添加更多的注解。本发明还提供分析方法，其中相对于交互式抽象映像绘制对应于遍历记录的数据标记可使，使用户在探测所述视频记录时在各抽象层次之间移换。

Description

用于数字视频内容的交互式网络共享的方法及装置

技术领域

本发明涉及用于数字视频内容的交互式创作、共享和分析的电子方法和系统。

背景技术

目前已经提出并设计了用于捕捉全景数字影像并对全景数字影像进行交互式导航的各种系统。举例而言，参见：“FlyCam：实用全景视频(Flycam：PracticalPanoramic Video)”，IEEE International Conference on Multimedia and Expo会刊第III卷第1419-1422页(2000年8月)；Nalwa的第6,285,365号美国专利“由图标定位的全景图像显示(Icon-Referenced Panoramic Image Display)”；及Teodosio等人的第6,121,966号美国专利“可导航的观察系统(Nabigable Viewing System)’。

单独地，还存在用于注解和共享传统视频“剪辑”或选录的系统。例如，参见“VideoNoter：一种用于探索性视频分析的工具(VideoNoter：A Tool for ExploratoryVideo Analysis)”，Roschelle，Pea及Trigg，Institute for Research on Learning，Technical Report第17期(1990年)。

然而，至今人们却几乎没有注意到这样一种更大的需求-及机会：即并置的或分散的用户社区通过创建、注解、存储和共享“视点式”可视媒体遍历的永久记录来创作和共享对多媒体内容的个人解释的需求。此等记录应忠实地捕捉作者在查看特定媒体内容时的独特观点(例如，记录作者的查看经历的空间焦点和定时)以及通过注释、分类以及其他的注解符号形式为作者提供一种表达他或她对该媒体内容的解释的载体。一种解决这一需求的有效解决方案应该提供能够允许进行强有力的表达但又适用于并非技术专家的作者的充分集成的交互式设备。此外，该解决方案应使作者能够与一联网的用户社区共享其解释，并同样地使社区的参与者能够根据特定媒体内容来发表其自己的注释和观点。此外，所需解决方案应支持使用户能够探测和量化所共享的媒体内容和注释的重要性的分析工具。

发明内容

简单地说，本发明提供用于对数字视频内容进行交互式创作、共享和分析的电子方法及装置。

在一方面中，本发明通过显示可视数据、将每一遍历界定为一基于时间的帧序列并注释和存储该遍历的一记录，来提供一种创作带注释的遍历的交互式电子方法。当重复实施该方法时，该方法会创建复数个可能来自于不同可视源的所存储遍历。该可视数据较佳包括动态视频、静止影像、模拟影像/动画影像、全景影像及/或活动影像。所述全景影像较佳包括使用复数个自一固定点朝向外部(或自一周边朝向内部)的摄像机所捕捉的影像，以便各遍历可反映一可由用户调整的3D立体图。所述注解较佳包括文本注释、图形符号、分类码、元数据及/或音频转录。所述分类码是以交互方式选自可由用户界定的码模板。在另一方面中，所述所存储的遍历记录可以被压缩图像数据的形式对所遍历的可视数据进行编码，或将所遍历的可视数据编码为一组界定所述遍历的位置座标。

界定所述遍历较佳包括：通过相对于所述可视数据对一覆盖窗口进行定位，以交互方式扫视所述数据；通过调整所述覆盖窗口的大小进行放大或缩小；以及存储所述遍历的一记录。所述可视数据可以一矩形布局进行显示；或者，另一选择为，以一圆柱形布局进行显示，其中所述覆盖的位置由一位于所述圆柱中央的虚拟摄像机界定。此外，对所述覆盖窗口进行定位可包括移动所述可视数据，而使所述覆盖窗口保持固定或者，另一选择为，移动所述覆盖窗口，而所述可视数据保持固定。所述覆盖窗口具有一较佳可由用户选择的几何形状。本发明的进一步的方面包括同时使用复数个独立定位的覆盖窗口来扫视所述可视数据。

在本发明的另一方面中，较佳使用一集成图形界面来实施所述方法。所述图形用户界面较佳包括复数个计算机显示区-包括一显示所述可视数据的概览区、一在所述覆盖窗口内显示当前数据的细节区及一显示一由所述复数个所存储的带注解遍历记录构成的列表的工作表区。所述细节区以一高于所述概览区的放大率或分辨率来显示数据。该放大率或分辨率可由用户控制，或由对用户带宽连接性或其他与性能相关的量度敏感的网络服务来使能。通过以交互方式选择其中一个遍历记录，例如通过将一对应于所选记录的图形元素从所述工作表拖放至所述细节区上，启动所选存储记录在所述细节区中的重放。本发明的进一步的方面包括指定一复合遍历记录，即复数个所存储的遍历记录的一组合。重放所述复合遍历记录包括相邻地显示所组合的各遍历记录。可通过选择一源记录、关闭所有音频及/或为每一记录指定一相对音频成分，来指定所组合的各遍历记录的音频成分。在另一方面中，在一可使用一标准HTML浏览器通过网络访问的文档中公布由带注解的遍历记录构成的工作表区列表。

在一实施例中，使用一用于以交互方式创作可视数据的带注解遍历的遥控数字电子装置来实施本发明。所述装置包括一用于显示可视数据的第一显示器件及一与所述第一器件进行通信的手持式遥控器件。所述遥控器经配置用于控制图形交互作用，所述图形交互作用界定所显示的可视数据的遍历、注解和存储带注解遍历的一基于时间的记录。界定所述遍历包括：通过相对于所显示的可视数据对一覆盖窗口进行定位来扫视所述可视数据，及通过调整所述覆盖窗口的大小来进行缩放。

本发明进一步提供一种用于创作可视数据及相关联的空间音频数据的遍历的交互式电子方法。所述方法包括：显示所述可视数据；以交互方式界定所述数据的一遍历，即一基于时间的帧序列，其中每一帧均包括所述可视数据的一空间子集；以及存储所述遍历的一记录，包括与每一帧中的可视数据相关联的空间音频数据。所述可视数据和音频数据较佳包括对一情景的视听记录。所述可视数据也可包括对位置的描绘，且所述音频数据也可包括对来自所述位置的声音的记录。举例而言，可视数据可描绘一音乐厅或一会议室，而所述空间音频可包括对所述音乐厅中的音乐或对所述会议室中的谈话的记录。另一方面包括通过转录所述记录中所包含的空间音频数据来对所述遍历记录进行注解。

在另一实施例中，本发明提供一种用于通过公布(较佳作为一网页)一由遍历记录和注解构成的列表来共享用户对可视数据的观点的系统和方法。公布在因特网联网或一专用内联网上的网页较佳提供一用于显示所选遍历的区域。浏览或访问公布页面的用户可以交互方式选择遍历用于重放，并以交互方式向所述页面添加注解以供他人查看。可对每一注解进行编码(例如，用颜色或阴影以及用名字)，以表明其作者。在另一特征中，所列遍历记录包括至少一个复合遍历记录(指定一遍历组合)；根据此特征，重放较佳包括以并排窗格或以窗口中的窗口的格式相邻地重放相应复数个遍历的内容。在又一特征中，还公布所述注解的一索引，所述索引可通过一网络浏览器查找。此类索引可提供缩略图或动态图像表示以作为所注解的媒体项的替代物。此特征允许检索和访问一个列出那些与在所述查找中指定的注解相关联的遍历记录的网页。

在另一方面中，本发明提供一种使用复数个遍历记录对可视数据进行交互式电子探测和分析的方法。所述方法包括显示一抽象映像；在所述映像上相应的复数个位置上绘制复数个标记-每一标记均对应于一遍历记录；并响应于选择所述标记而重复所述遍历。举例而言，所述抽象映像可代表来自所述可视数据的一景物的轮廓，其通过使用边缘检测算法自动产生，在此种情形中，可根据在每一相应的遍历记录中所捕捉的影像的空间位置以逻辑方式绘制所述标记。或者，所述抽象映像可代表一曲线图，该曲线图的轴线度量一个或多个为所述存储记录指定的注解数据值，在此种情形中，可根据为每一相应遍历记录指定的特定注解值以逻辑方式绘制所述标记。在本发明的又一方面中，使用一图形用户界面来实施所述方法，该图形用户界面包括一具有一由遍历记录和相关注解构成的列表的工作表区。在这一方面中，所述方法进一步涵盖在所述抽象映像内以交互方式选择一空间区域(例如借助一滑动条)以及响应于此而在所述工作表内显示一由与那些位于所关心空间区域内的标记对应的遍历记录构成的经过滤的列表。

附图说明

图1为一流程图，其根据本发明的一较佳实施例图解说明一种用于创作可视数据的带注解的“视点”遍历的方法。

图2A根据一矩形实施例图解说明一用于界定视点遍历的图形用户界面。

图2B根据一圆柱形实施例图解说明一用于界定视点遍历的图形用户界面。

图3图解说明一用于查看复合遍历记录的图形用户界面。

图4图解说明一用于为一遍历记录指派分类代码注解的图形选择模板。

图5为一流程图，其图解说明一种用于公布并与一网络群体的成员共享可视数据的带注解的“视点”遍历的方法。

图6为一流程图，其图解说明一种使用数据映像来探测和分析可视数据遍历的方法。

图7图解说明一使用数据映像来探测和分析可视数据遍历的图形用户界面的一实施例。

图8图解说明一使用数据映像来探测和分析可视数据遍历的图形用户界面的另一实施例。

图9图解说明一使用数据映像来探测和分析可视数据遍历的图形用户界面的又一实施例。

图10描绘一从具体到抽象呈现的用于探测和分析可视数据遍历的信息工作流。

图11显示一用于实施本文所述较佳实施例的数字电子装置的网络。

图12图解说明通过“内容循环”来传送“元内容”数据包的现有技术。

图13图解说明用于适应性速率多服务和外边缘内容高速缓存的现有技术架构。

具体实施方式

现在将参照附图来详细说明本发明的较佳实施例。出于本发明的目的，可视数据通常包括任一形式的数字图像数据，包括动态视频、静止影像、模拟或动画影像、全景影像及活动影像-均带有或不带有伴随的音频通道。

A. 创作

图1为一流程图，其根据本发明一较佳实施例图解说明一用于创作可视数据的带注解的“视点”遍历的方法。图2A根据一矩形实施例图解说明一用于界定视点遍历的图形用户界面。大致地说，所述创作过程由从可视数据中以交互方式选择一组剪辑的空间和时间选择、以及在所述工作空间中对其进行标记组成。我们在本文中将这种交互式选择称为遍历。

在100中，在概览窗口210中显示可视数据，从而提供整个景物的一概览。概览210可与一标准视频流、静止图像或动画相关联，或者可利用一视频景物的全景360度表示法。对于线性视频，概览210将显示一自原始视频记录创建的标准4∶3长宽比的视频流，其中所述景物上的一矩形覆盖200对应于一对准该特定景物区域的虚拟摄像机的视野的经剪辑的空间区域。对于所描绘的全景视频，概览210(也称为“全景概览”)显示一自原始圆柱形视频记录创建的脱壳(peeled back)的图像。该全景图像上的矩形覆盖200对应于一对准所述特定景物区域的虚拟摄像机的视场。在两种情形下，细节窗口200均较佳提供“摄像机视野”-由概览210内的矩形覆盖200的边界所界定的一更高分辨率图像。这种更高分辨率较佳可由用户调整，或者可由对用户带宽连接性及/或其他与性能相关的量度敏感的网络服务来实现和调整。如下文所要进一步论述，工作空间230提供一用于注解和组织选自所述景物的视频和音频遍历的灵活环境。

在110中，覆盖窗口200以交互方式定位于在窗口210中显示的可视数据的一指定的空间子集上。在120中，覆盖窗口由用户以交互方式调整大小，以在所选可视数据上“放大”或“缩小”。任务110和120是根据用户需要而随时间重复实施，而100中的可视数据则是连续显示。用户由此遍历可视数据的一所需空间和时间子集。举例而言，如果所述可视数据包括视频数据，则通过根据每一当前视频帧内所特别关注的内容将所述覆盖窗口定位到200并确定200的大小，所述用户实际上可创建“电影中的电影”。我们在本文中有时会提及将这种遍历定义为“视点”创作，因为在每一遍历中均反映作者/用户对可视数据的独特的和个人的视觉观点。

就全景可视数据而言，创建有效的导航界面为计算机成像和用户界面设计带来挑战和机遇。一方面，全向摄像机可为用户提供对整个现实世界空间的360度表示(从一单个节点)。另一方面，用于创建全景概览的光学装置会在图像中引入投影失真(变形)，从而限制其作为一信息图像的有效性(例如，参见Foote& Kimber 2000)，当用户需要抽取关于景物中的空间布局、人的位置及身体取向的精确信息时尤其如此。举例而言，考虑对于一全景概览而言回答下列问题的难度：景物的空间布局是何种布局？哪个方向是前向及后向？左向及右向？各演员彼此离多远？另一方面，也许存在其他种类的其中所述概览中的空间失真将不会妨碍信息抽取的任务。举例而言，一全景概览很可能将允许用户回答例如以下等问题：谁讲了什么？他们何时讲的？他们这样讲时的状态如何(关于非口头姿势、面部表情、身体位置、声音语调等的信息)？有趣的是，当前用于产生全景概览的方法可能非常缺乏空间定向力，以致于人们发现其令人迷惑，无论该任务是否涉及抽取在空间上精确的信息。

考虑到空间定向，图2B图解说明具有用于查看和遍历全景数据的特定值的一本发明替代实施例。我们将此实施例称为“旋转罐”查看。此处，并非将一圆柱形全景图像脱壳，而是将所述图像映射到一圆柱或圆筒210上，用户可将该圆柱或圆筒210围绕其竖直和水平轴线旋转，以便检查其内容。举例而言，通过在所述圆筒210中央显示一摄像机图标260并使用摄像机260的视场界定覆盖窗口270，可向用户更清楚地显示所述观察图像是如何形成的及所述摄像机聚焦于所述景物的哪一部分上。通过旋转所述摄像机或围绕所述摄像机的圆筒，可在细节窗口220(其未在图2B中显示)中显示经矫正的部分图像270。此界面可使用户更容易理解前/后、左/右取向以及物体在所述景物中的相对位置。

在一较佳实施例中，可视数据包括使用复数个围绕所述景物并且朝内的摄像机捕捉的全景景物数据。如实践者所将认识到，这使遍历能够反映一经用户调整的3D立体图，从而尤其能够使导航看到原本从一特定摄像机角度看不到的隐藏物体。

在130中，用户较佳使用图2A所示的图形用户界面对遍历进行注解，以添加包括自由文本注释250(a)和分类码250(c)在内的注解。如在图4中所描绘，分类码250(c)为选自一编码模板菜单400中的预定义的标签。此特征使用户能够根据一支持后续数据分析(举例而言，如下文结合图6-10所述)的统一的分类学对遍历进行迅速分类。较佳地，分类标签编码模板400可由用户自定义。在另外的实施例中，遍历注解较佳包括对与每一遍历中所记录的视频(其如果尚不能以电子形式得到，则可使用传统的语音识别技术自动产生)相对应的音频250(b)的转录以及描述遍历段的“元数据”250(d)，例如(但不限于)角色名称、景物名称、时间/日期，等等。

在140中，存储所述带注解的遍历的一永久记录，以供将来参考和研究，包括网络公布和分析(将在下文中根据图5-10来详细阐述)。对许多实践者和应用而言，图1所示的方法将重复实施，从而产生复数个带注解的遍历记录。图2A中的工作表区230显示此等记录的一交互式列表。这样，列240以一代表性缩略图标识每一遍历，列250(a)-(d)显示相关联的注解。举例而言，视频缩略图可包括静止图像、全景缩略图或动作预览。

注意，对于图2A和图2B二者的实施例，通过使覆盖窗口200保持固定而移动概览窗口210或者使概览窗口210保持固定而移动覆盖窗口200来将覆盖窗口200相对定位，可遍历概览窗口210中的可视数据。这两种技术是等效的，其均属于本发明的精神和范围内；实践者可根据特定应用的详情来选择一种方法。

在150-170中，用户可重放一记录遍历的内容。在150中，用户从在工作表区230中显示的列表中以交互方式选择一存储遍历。在一较佳实施例中，可用的选择机制包括使用鼠标或其他光标控制器件来将一缩略图从与对应于所需遍历记录的列240“拖放”至细节窗口220上。较佳地，这使细节窗口220以及概览窗口210复位到所选遍历序列开始时的适当的帧。较佳地，通过点击屏幕视频控制区215上的“播放”按钮来启动在窗口210和220中的遍历的重放170。

如果所选遍历为一复合遍历，即由用户指定的一个以上存储遍历的复合，例如图3所示的复合遍历320，那么重放170较佳包括同时和相邻地重放多个遍历记录，例如以并排窗格340的形式或以窗口中的窗口的形式。当所述复合遍历包括音频通道时，在160中为重放170指定一合适的音频混合。所述混合可较佳是：一收听一个遍历而使其它遍历无声的用户选择；或使所有音频均无声的选择；或是由用户选择的相对衰落(例如使用屏幕上的滑动条来指定)，从而突出复合遍历中的一个所需遍历，且不完全使其它遍历无声。

附带注意图3所示的变化，其中将细节窗口220显示为一与工作表区230重叠的“弹出”窗口，而不是象在图2A和2B中一般显示为一与覆盖窗口210相邻的固定区域。实践者易知，视特定应用的需要和喜好而定，可具有此种变化及其他类似性质的变化，这些变化都属于本发明的精神和范围内。

在某些应用中，可使用一单个工作表区230来列出和组织来自一个以上源的可视数据的遍历。举例而言，此可适用于对不同电影中的相似景物或不同景物和视频中一单个演员或个人的行为进行比较和对比。

在一针对某些应用的较佳实施例中，一包括空间音频数据的音频通道与正被遍历的视频数据相关联。举例而言，正被遍历的数据可包括一景物的一视听记录；或者，所述视频数据可包括对一地点的描绘，例如一音乐厅、会议室或讲堂的图像，而相关联的音频数据包括对所述音乐厅中的音乐、所述会议室中的谈话或所述讲堂里的演讲的记录。

如相关技术领域的实践者所知，空间音频通常是例如通过在要录音的地点配备多个麦克风并对合成立体声数据进行适当的信号处理来捕捉。

作为本发明的一个优点，包括空间音频数据的实施例较佳随每一遍历记录一起存储与用户在整个景物内所遍历的空间区域相关联的音频数据。举例而言，一较佳实施例允许用户以交互方式界定多个离散的空间声区，例如通过在概览窗口210(未显示)内以图形方式设置“虚拟麦克风”图标。随一特定遍历一起存储的音频数据于是将在所述遍历的每一帧处反映可在与该特定帧的空间位置相关联的音区内听到的适当声音。在本发明所实现的另一特征中，可通过对包含在所述记录中的空间音频数据进行转录来对所述遍历记录进行注解(如上文结合图1的任务130及图形界面区域250b所述)。因此，仅转录在空间上相关的音频可滤除不相关的全局噪声并提供几个优点。举例而言，由于滤除了来自其他扇区的无关噪声，因此提高了自动语音识别的精确度。同样，如果产生转录，则其将包含仅着重于相关空间内的言辞的可查找文本数据，从而使文本查找更具效率和有效。

B. 共享和协作

1. 网络公布

图5是一流程图，其图解说明一种公布并与一网络社区的成员共享可视数据的带注解的“视点”遍历的方法。在500中，我们从一带注解的遍历记录列表开始。所述列表可例如使用在本文中结合图1-4所述的方法和装置、具体而言使用在工作表区230中产生的内容来创建。在510中，将此列表作为一网络文档或网页进行公布；较佳地，如所属领域的技术人员在其他相关背景中所知，较佳提供输出实用程序来利于进行或为用户自动进行此过程。所述网页较佳公布在公用网络上，例如因特网或专用企业内联网上，此视应用性质而定。在515中，由其他用户通过网络、较佳使用标准网络浏览器来访问所述网页。在520中，访问所述网页的用户以交互方式从所显示的列表中选择一所关心的遍历记录(例如通过“点击”该记录)。作为响应，在530中，通常在网页的一指定区域中或者在一弹出式播放窗口中，为用户重放与所选记录相对应的遍历数据。

在网络用户查看一遍历后，可鼓励所述网络添加他或她自己关于该遍历内容的注解。在这种情况下，在540中，所述网络用户以交互方式输入一新的补充注解，并在550处，通过网络以交互方式将新的注解提交给主持所述网页的服务器。如实践者在其他上下文中所熟知，所述网页较佳利用交互式联机形式技术以此种方式捕捉新的注解。在560中，所述服务器将所述新的注解添加到所公布的网页上，并将其作为该页面的一部分显示给随后访问该页面的所有网络用户。

在本发明的较佳实施例和应用中，进一步使网络用户能够形成反映共同兴趣的社区和子社区。(注意：我们在本文中有时将本发明的一实施例称为一DIVER^TM系统，其代表数字交互式视频探测与反映(Digital Interactive VideoExploration and Reflection)技术，并将所存储遍历的一工作表列表230称为一DIVE^TM工作表。)举例而言，本发明的较佳系统可记录并向网络用户公布所共同感兴趣的使用数据，例如最流行的DIVE、最近张贴的DIVE、最近谁访问过、现在谁在DIVE等。用户可较佳定阅关于新公布的DIVE或DIVE更新的电子邮件通知，并且在选择(使用页面中的HTML定位符)所述电子邮件消息中的一链接时，可在515中直接浏览一特定的所公布工作表230内的一指定的或突出显示的窗格。

较佳网络实施例的进一步特征包括一“HyperDiving”能力，其使所公布网页中的工作表230表项(例如注解区250)能够直接超级链接至诸如下列等参考材料类型：

·现有的视频DIVE；

·另一所公布的DIVE工作表；

·网络URL(即一网页或一网络文档引用)；及，

·所加载的文档(在此种情况下，将较佳为创建此种链接的用户提供一界面，以浏览用户的本地目录并选择和向服务器加载一文件，然后，该文件即与所述超级链接相关联)。

在针对协作性网络应用的较佳实施例中，用户可使用诸如“公众”(全部注册的和非注册的用户)、“全部注册的”(全部注册用户)及个别和共同界定的用户和群组的特定组合等访问方法，为DIVE设定访问控制。较佳可赋予不同类别的DIVER用户适当类别的权利和特权，这些权利和特权包括“全权”(用户可创建和修改DIVE)、“查看和注解权”(用户只能查看和注解DIVE)及“只查看”(用户只能查看DIVE及其注释；用户不可以添加注释)。举例而言，可能非注册用户应全部为“只查看”。

2. 网络视频分发问题

在因特网上传送数字视频在某种意义上已在所属领域中众所周知和简单易懂，但要实现不变的高性能可能极具挑战性。文件会很大，查看者偏爱高质量和高性能，实时要求很高，管道仍然狭窄-且因特网常常不可靠、拥挤、慢且易于崩溃。可靠的协议(即FTP、HTTP和TCP)可保证传送，但可能遭受无法接受程度的等待时间和延迟，而且无法保证及时的数据传送。不可靠的协议(例如UDP或RTSP)可提供更快的性能，但可能遭受数据丢失，并因而导致接收器侧的内容不完整。视频压缩算法可减少带宽，但会相应地降低质量。不仅限于回放地对数字视频进行处理-包括创作、共享、协作及专门的交互作用，是一极大的挑战，对于复杂问题而言，在处理用于创作、交互作用、协作和传送的全景的超高带宽视频时，这些对于传统线性视频内容即已非常严重的问题会以指数方式变得更加困难。

幸而，存在很多种在因特网上处理数字视频的方法，而且这一前景发展迅速。的确，在该技术前沿上经常出现管理视频的新方案，并经常出现形成新的视频创新的机会。由于本发明的许多应用和实施例可受益于数字视频内容在因特网上的高性能传输，因而本节对当前的和新兴的技术选项进行综述，以供实践者在该上下文中考虑：

(a)流式视频算法。视频流式算法和协议的新方法，包括可适合于根据本发明独有的特性来传送视频的专门算法。

(b)视频文件传输协议。此种解决方案类型包括使用基于软件的文件传输协议的技术方法，包括查看用于诸如对等传输和多点传输(通常为无状态性质)等高速因特网文件传输的“下一代协议”。

(c)媒体分发方法。存在媒体计算、存储和分发方法，其可用于提供增强的性能，例如内容高速缓存和复制、联合服务器和数据库、网格计算和专用超高速网络等。

(d)视频压缩算法。此种解决方案类型包括视频压缩算法，此视频压缩算法查看MPEG2国际视频压缩标准的替代方案和发展路径。

注意：我们在下文中有时将本发明的一实施例称为DIVER^TM(代表数字交互式视频探测与反映(Digital Video Exploration and Reflection)技术)，并将所存储遍历的一工作表列表230称为一DIVE^TM工作表。

(a) 流式视频算法

在数字视频领域中，存在很多种众所周知的流式媒体技术。然而，这些流式算法均未设计成满足本发明的独特要求。为了本文说明的目的，将设计成满足本发明的特殊要求的新的类型的流式算法称为DIVER流。为处理DIVER流，流式算法应较佳能够解决媒体的甚高带宽性质、并行流表示(概览和虚拟摄像机)、线性及/或全景视频特性、以及如下要求：提供对虚拟摄像机电影的时空随机访问，以便能够在空间和时间上缩放和扫视所述景物显示。下面介绍若干备选方法。

(i)自适应多分辨率

提出一种自适应多分辨率存储和网络化访问方法来处理DIVER流，其中所述流能适应可用网络带宽和CPU能力。可利用一电影“基本对”-具有一适度分辨率的概览电影和更高分辨率虚拟摄像机电影。从所述高分辨率基本对得到的其他电影以越来越低的分辨率存储，从而实质上形成一“图像金字塔”，即一具有不同分辨率的图像堆叠(Ramella，2001年)。此方案能够适应可用带宽和CPU能力(借助一反馈机构)以确定用于重放的分辨率水平。有人提出根据对网络带宽的实时监控和桌面CPU性能测量来使用“金字塔分辨率转换”。

(ii)压缩数据二次抽样

提出一种压缩数据二次抽样方案来允许对压缩的高分辨率虚拟摄像机电影进行时空随机访问，以在进行中产生压缩的、经过时空剪辑的虚拟摄像机数据流。虽然视频压缩会降低存储和网络成本，但会提高处理要求，因为数据在处理之前必须解压缩。解压缩的开销非常大：压缩算法(例如JPEG或MPEG)要求每一像素150到300个解压缩指令，相当于所处理的质量视频的每一NTSC秒的27亿个指令。数据在处理后必须压缩，此会显著增加开销。在解压缩后处理视频被称为空间域处理，这是最常使用的方法。避免这些问题的一种方法是直接以视频数据的压缩形式处理视频数据(Smith 1993年，Arman 1993年)，此会减少处理所需的数据量，并减少复杂且费时的压缩和解压缩循环。这种方法被称为压缩域处理，它将空间域处理转换成其频域的等效处理。通过如下方式对压缩的数据进行处理：对压缩的位流进行熵译码以在频域中恢复稀疏向量数据，应用一个或多个压缩域运算符，并对结果进行量化和压缩。注意，可对压缩数据格式、以频率空间或其他编码表示形式实施压缩域处理。

在所提出的方案中，将使用一种能在压缩域中支持处理和视频景物二次抽样的DIVER视频的压缩表示形式。此可用于帧间或帧内视频算法。当在服务器处应用该方法时，该方法将在压缩的数据流内选择感兴趣的剪辑的时空视频流区，并且只随压缩的概览电影一起为虚拟摄像机路径传输对应的压缩流。一种更大程度地使用客户机的替代方法是随界定虚拟摄像机路径的矩形的空间和时间坐标一起传输压缩的全分辨率虚拟摄像机视频，然后在客户机侧选择并解压缩所述电影的适当区域。推荐使用服务器侧方法，因为其更具前景，但确实要求进行大量的服务器处理。

(iii)逐渐改良

提出一种逐渐改良的方案来在用户与所述DIVE交互作用时提供分辨率随时间逐渐升高的DIVER视频影像。所述逐渐改良概念(Cohen 1988年)起源于用于使用辐射通量密度算法来逐渐地迅速渲染复杂3D景物的计算机图形领域。在DIVER情形中，而是使用一类似机理将逐渐改良应用于数字视频流。此方法也可以结合上文所述的多分辨率算法使用。在此种情况下，将首先传输所述图像金字塔的最低或较低层，接着传输所述金字塔的后续层。将使用标准内插算法将所述金字塔的一层添加到下一层，并且如果需要，产生若干中间金字塔层。首先发送所述景物的最低分辨率版本作为一起点并将其用于产生所述概览电影和所述虚拟摄像机。在用户与所述电影随时间交互作用期间，将分辨率逐渐提高的视频传输至客户机。随着所述用户与一特定视频DIVE的交互越来越多，所述视频的显示质量也越来越高。

(iv)服务器侧再压缩

提出一种服务器侧再压缩方案来允许创建传输中的所剪辑时空虚拟摄像机电影的实时压缩版本。通过此种方法，在服务器上将高带宽高分辨率虚拟摄像机原作解压缩。使用一图像尺寸减小和过滤过程来减小分辨率并在服务器处产生未压缩的视频。所述未压缩的视频以一更低的分辨率受到再压缩并以一压缩形式传输。本方案既可用于概览又可用于虚拟摄像机。此模型在需要时起作用并且将需要能够在用户正查看许多DIVE时处理许多并行的再压缩。此方法将有可能只用于其中在服务器层上有极高性能的分布式和并行处理阵列可供用于视频变码(解压缩和再压缩)的情况下。

(v)凹显示

提出一种“凹点”概念(Chang及Yap，1997年)，以在虚拟摄像机和概览电影中所关心的区域中提供高分辨率。所述凹点概念模仿人眼的行为。可视化主要是一种“心理生理现象”。这一事实可用来解决当前可视化研究中的挑战。生物视觉的一关键事实是其使用“凹的图像”，在这类图像中，在凹处的分辨率远远高于外围的分辨率。与标准图像相比，这些种类的图像明显具有极小的数据密度。为对不均匀的分辨率进行调整，必须向查看者提供新程度的“有效控制”(Chang，Yap及Yen，1997年)。在针对DIVER提出的方案中，将有一个用于所关注区域(剪辑的时空区)且覆盖一粗粒度的“大图片”的高分辨率聚焦的虚拟摄像机图像(在一高级实施方案中，该概念可与眼睛跟踪结合使用，以根据引起人睛兴趣的区域来精确地提供分辨率)。

(b) 文件传输协议

(i)标准协议

HTTP、HTTPS、FTP、WebDAV-这些是当前在因特网上用于文件传输和共享的若干标准协议。这些协议和系统均可用于传输、共享和分发大的媒体文件。这些协议最大的优点是其无处不在，而最大的缺点是其缺少对增强媒体内容的高性能传送的特定支持。

(ii)下一代协议

FTP(“文件传送协议”)是在20世纪70年代初作为一在因特网上传输文件的协议开发而成。此标准在客户机与服务器之间建立一对话，其中数据被分离成信息包并以小的网络数据包形式传输。在典型的数据包丢失和往返时间(RTT)中，FTP通常在拥挤和延迟的环境下运行。一旦网络丢失和延迟达到一定限度，对数据传输而言，增大带宽的益处可能极小甚至毫无益处，即使在甚高速链路上，数据传输率也无法超过一相当低的阈值，从而导致这些链路上的效率非常低。FTP因其无处不在而颇为有用，但在用于当前因特网上所需的大文件尺寸传输类型时，当数据包丢失增加时，其效率可能非常有限。

最近出现了使用许多种不同的独特方法来处理与FTP协议的低效率相关的主要根本原因的创新解决方案。现在可得到一组据说“可提供TCP的可靠性和UDP的速度”的新协议；这些方案可比FTP明显改进，其量化的速度提高量的范围为5X到10X或更高。

一种特别引起注意的方法是MetaContent方法(Digital Fountain，2002年)，在本文中将其称为内容循环(Content cycling)方法，其中内容是以一与顺序无关的方式传输。如图12所示，Digital Fountain的数据分发技术与传统文件服务器或传输协议的数据分发技术根本不同。该架构由一Digital Fountain服务器、一Digital Fountain客户机和一叫做“MetaContent(元内容)”的专利概念组成，其中使用数学“比喻”在接收器处重新构造数据。使用MetaContent，将数据作为一“与顺序无关”的信息流来接收，此信息流类似于多点传输视频流。包含独立产生的Meta-Content(元内容)的数据包完全可互换，且接收器可随时接入数据“源泉”。所述Fountain客户机接收哪一Meta-Content以及以什么样的顺序接收并不重要。只有所接收的独立产生的Meta-Content的数量才能决定何时可重新构造原始内容。因此，如果包含Meta-Content的数据包在传输中丢失，则在随后接收的数据包中所包含的任何相等数量的Meta-Content刚好可用于重新构造原始内容。在此种情形中，并非如大多数传输协议一般实施严格的顺序性数据传送，而是利用循环的重复性数据方案。

与例如FTP等标准协议相比，使用Digital Foutain可使传输速度得到显著提高。在通常情况下，与FTP相比，传输速度通常提高2.5X到5X或更高，并且可以高达2至3个数量级。另外，在某些情况下，Digital Fountain可提供高达95％的链路利用率。拥塞流量控制可确保对其他网络通信量的公平性，而且此方案使用一小的(若干兆字节)的存储器使用量。Digital Fountain要求所有数据接收方使用专有客户机侧软件以及在服务器侧上使用Transporter Fountain。为使用Transporter Fountain平台，必须购买一服务器许可证。Digital Fountain使用UDP协议，这可能要求媒体用户的IT或网络部门进行防火墙配置工作。虽然DigitalFountain的优点可能很大，但其优点会根据网络速度、等待时间和跳跃次数而对上下文非常敏感；实践者应留心查看此功能的潜在应用，以保证其只用于适当的情况下。

(c) 媒体分发

(i)内容高速缓存

DIVER工程可考虑许多种内容高速缓存方法来提高终端用户的视频性能。DIVER组可使用其自身的开发资源开发一组方法。这可能包括用于使用一同步算法将视频内容从一中央DIVER服务器复制到区域DIVER服务器的独特机理，以将经常被访问的视频DIVE内容分发到一由DIVER服务器构成的分布式局部网络。当一用户请求所述内容时，可将其指引到满足所规定标准(即通信量最少、负荷最小、位置最近或这些量度的组合)的最近的DIVER服务器。另一选择将是采用市售内容高速缓存产品(Vichare，2002年)。一附加选择将是将一内部开发的高速缓存模型与市售高速缓存产品相结合。

目前，内部网和因特网上的终端用户正使用内容联网产品(由例如Inktomi、Akamai、CacheFlow、Cisco、Network Appliance等供应商提供)来提高对丰富内容的查看和交互性能。这些产品为以一可缩放的、可靠且安全的方法传送静态内容、流式内容及动态内容提供基础结构。高速缓存的要素包括：在网络边缘处靠近终端用户存储的内容，以提高性能并使上游带宽最小化；内容选路，其对内容进行选路以创建一内容位置目录，网络和服务器负荷使用所述目录将请求选路到最佳的数据中心或提供最近的内容；及内容分发和管理，其是将静态内容、动态内容和流式内容积极、智能地从任一起始点分发到网络边缘。为了便于在网络上存取，一高速缓存器件智能并迅速地选择和存储Web数据。更频繁被请求的内容是存储在网络上，从而大大减轻Web服务器和防火墙的负担。因此，网络可更快地满足对网页和增强媒体内容的请求。高速缓存器件用于三种不同的情景中：其可以“反向高速缓冲存储器”形式位于网路服务器前面，以减小服务器负荷和加快站点性能；其可以“正向高速缓冲存储器”形式位于一企业LAN面向WAN的位置处，以减少WAN上的通信量；其可沿着一ISP的或运营商的主干线驻存于许多个“分布式高速缓冲存储器”点上，以减少沿着传送路线的通信量。

实践者可对可供用于在分布式环境中优化对DIVER内容的访问的各种内容高速缓存选项进行评估。

(ii)联合服务器与数据库

联合服务器和数据库是实践者可考虑用于DIVER的可能感兴趣的技术。较佳应用包括开发一在Video Collaboratories分布式网络上复制的DIVER环境；对于此种应用，较佳具有一种允许媒体存储于分布式数据库中的系统。这将使各个DIVER中心能够各自保持其自己的DIVER服务器和内容，但仍然能够在所有DIVER站点中以全局方式共享内容和元数据。

联合系统是一种特殊种类的分布式数据库管理系统(DBMS)(Rutledge，2001年)。联合系统使人们能够查询和检索位于其他DBMS(例如Oracle、Sybase、Microsoft SQL服务器或如mySQL等Open Source数据库)上的数据。SQL语句可以在一单个语句中提及多个DBMS或单独的数据库。举例而言，人们可以连接位于一Oracle表格、Microsoft SQL服务器和mySQL视图中的数据。在一联合数据库环境下，会自多个异质数据源提供一单个同步视图。联合系统模型是一适用于具有一般通信量和性能要求的小重要和中等重要应用的架构。

联合系统由一将用作联合数据库(一数据库实例)的数据库和一个或多个数据“源”组成。用于标识数据源及其特性的目录项构成所述联合数据库。DBMS和数据构成所述数据源。可使用“绰号”来指代位于所述数据源中的表格和视图。应用程序如同连接至任一其他数据库一般连接至联合数据库，并期望仿佛其是一个统一数据库一般来利用其内容。

在联合系统建立后，便可访问各数据源中的信息，仿佛其处于一个大的数据库中一般。用户和应用程序向一个联合数据库发送查询，由所述联合数据库从数据源中检索数据。联合系统可在某些限制条件下运行；举例而言，分布式请求仅限于只读操作。

(iii)网格计算

最近几年中，众多的开发已将网格计算(Foster 2001年、Chen 2002年)领域变成一种对大规模分布式计算任务似乎可取的解决方案。人们已经开始着重于用于科学性可视化、图像渲染、航天计算和诸如多人多媒体游戏(也称作MMG-对应于大规模多人游戏(Massively Multiplayer Gaming，且是IBM Butterfly.Net( http：//www.butterfly.net)首创精神的核心)等商业应用的研究应用。如果DIVER的使用在Digital Video Collaboratories网络上变得很普遍，并且在一分布式用户基数中广泛地需要处理大量的大文件尺寸的全景和传统视频，那么网格计算可是一可供考虑的非常令人感兴趣的解决方案。网格计算令人感兴趣，因为其允许大规模地捕获空闲的CPU循环，从而实质上高效地利用计算资源(并因此显著降低成本)。一确定一计算任务是否映射到一网格计算解决方案的检查表可见于(Dyck 2002年)。一典型的网格计算“检查表”包括确定所述计算是否需要满足下列标准：

分散式管理结构

需要高级计算

计算可分布至各组件封装内

数据已经分布于许多位置中

不需要快速或可预测的响应时间

计算容忍软件和硬件故障

实践者应检查在一特定应用中所述DIVER对数字视频处理的需要，以确定是否与一网格计算方法潜在地匹配。例如，在实施下列数字视频分析任务的应用中也可提高网格计算的DIVER值：

将音频自动转录成可查找的带索引的文本

全景反扭曲

将视频“编码”成行为类别和统计分析

将视频变码成低位速率和视频流格式，

随着这些能力日趋复杂和对计算的要求越来越苛求，会尤其如此。

Globus Project( http：//www.globus.org)是一管理网格计算的Open Source(开放式源码)开发、研究和原型的组织。Globus Toolkit2.0现在可供用于生产目的；Globus Toolkit3.0着重于开放网格服务架构(OGSA)-网格计算与网络服务框架的结合。

(iv)对等式

在Kontiki(http：//www.kontiki.com)传送管理系统(Delivery ManagementSystem，图13所示的架构)中，可得到一组在企业中提供数字媒体的公布安全性、传送和跟踪的应用程序。此技术采用对等式文件共享和一大型文件分发模型，在所述模型中，一旦内容已在一节点处得到访问，便以一分布式方式在广域网和局域网节点之间高速缓存数据。在越来越多数量的用户更频繁地访问数据时，数据便被分发到更多节点，因而对内容的访问变得更快。此技术类似于大规模对等文件共享能力，但注重于增强媒体的更加安全、可靠和企业强度的传送。Kontiki解决方案要求一转有客户机和一服务器模块。

此技术是基于Bandwidth Harvesting(包括Adaptive Rate MultiServing(自适应速率多服务，其中Kontiki监控正服务于该文件的每一台计算机的响应时间和可用带宽，并且自适应性地从提供最佳吞吐量的计算机请求更多的数据)、Caching Content(高速缓存内容，在外部网格边缘处)、及Time Shifting(时移，其中Kontiki的网络目录建立已预定了即将进行的一次性传送和正在进行的传送(例如每周新闻提要)的媒体用户的列表，并在非高峰时间自动传送这些文件))、Digital Rights Management(数字权限管理)和一Secure Distributed NetworkManagement Protocol(安全分布式网络管理协议)。

此方法的速度优点相当突出，并且类似于Digital Fountain，在各种情形中，回报可能很显著，其中速度提高多倍或多个数量级(即当在局部网上在一就近的台式机上就地高速缓存媒体文件时)。

(v)手持式和移动视频

手持式和移动装置领域继续以惊人的步伐前进，新型的手持式装置和手机可提供彩屏、更大的存储器、带宽和存储能力。合乎逻辑地，可考虑使用这些装置作为一在上面使用媒体分发的平台。举例而言，数据存储卡(CompactFlash、SmartMedia及其他数据存储卡)提供从几兆字节一直到四分之一吉字节或以上的不等的数据存储能力。此种存储水平非常适合于处理压缩的数字视频文件。可以设想在此种能够实现高数据存储能力的新类型装置上使用线性或全景视频内容。Kinoma(http：//www.kinoma.com)刚刚发布了一种用于在手持式装置上显示高质量数字视频的有力的解决方案。Kinoma提供一创作环境，该创作环境允许获取一输入源电影并将它转换成一适合于在一手持式装置上重放和交互的专门格式。

为在手持式装置上使用视频DIVE，值得考虑多种视频编码选项。举例而言，可以一“可缩放”的方式呈现DIVE视频，以便以包括适合于低端装置的位速率在内的多种位速率产生内容。或者，可将视频变码成一设计用于手持式装置上的低位速率视频的新格式。最后，可使用所述视频的一“智能”呈现-其将根据可用的计算能力、屏幕尺寸，等而自动按比例缩放。

(d) 视频压缩

(i)观察

视频压缩算法是总体视频传送图片的一重要部分。所使用的算法将在确定文件大小、传输时间、图片质量、编辑能力和与工业标准的相符性中起关键作用。在视频压缩领域中不断涌现出创新性的新开发，其中许多厂家提出许多关于文件大小和图片质量的强烈权利主张。建议在此领域中谨慎行事，因为新的压缩算法要求大量的时间和资源投资和投入。应该根据基本的设计参数(压缩比、文件尺寸、传输时间、标准相符性、图片质量、开放度，等等)对任何新的压缩算法进行评价。许多供应商只强调其视频压缩文件的尺寸和速率信息，但这对于评价而言是不够的。对一新的编译码器来说，一重要的决定因素是图片质量。目前还没有用于测定图片质量的既定的通用定量量度(虽然可使用例如信噪比等量度进行)。在缺少定量数据的条件下，必须对目标用户实施测试，以确定图片质量是否满足对可接受质量视频的需要。

(ii)标准

MPEG-4是由MPEG(运动图像专家组)开发的一ISO/IEC标准，该委员会还开发了称作MPEG-1的全球标准(从而产生视频CD、PC重放、MP3)和MPEG-2(当前在DVD和数字电视上广泛使用)。例如参见http：//mpeg.telecomitalialab.com/standards/mpeg-4/mpeg-4.htm。MPEG-4是由全世界数百个研究者和工程师所进行的一项新的国际性努力的结果。MPEG-4是建立在三个领域(数字电视；交互式图形应用(合成内容)；和交互式多媒体(环球网，内容的分发和访问)的经过证明的成功之上。MPEG-4提供能够集成所述三个领域的生产、分发和内容访问范例的标准化技术元素。相关标准MPEG-7(内容描述标准(Standard for Content Description))和MPEG-21(多媒体框架(Multimedia Framework))当前正在开发之中，并且很可能会与MPEG-4相关。

MPEG-4是一基于目标的视频标准，其流式方法会产生与MPEG-2(当前的行业标准)相同质量的视频流，但只使用MPEG-2位速率的三分之一。这种在相同质量级别上的位速率降低非常明显并使传输时间显著加速。MPEG-4在整个带宽频谱上-从手机一直到高位速率宽带-提供极高的质量，这可与当今所具有的最好的专利压缩算法相媲美。

Apple计算机强力支持MPEG-4。例如参见http：//www.apple.com/mpeg4/。MPEG-4将为QuickTime 6的一组成要素，Real Networks也已采用这一标准。然而，值得注意的是，Microsoft尚待接受这一标准，且正在提供一种叫做“Corona”(Windows Media 9)的替代方案。参看 http：//www. microsoft.com/windows/windowsmedia/thirdgen/default.asp.

(iii)开放式源码(编译码器)

VP3( www.vp3.com)为一“开放式源码”视频编译码器。该编译码器允许开放式源码社区访问一具有增强和扩展视频处理代码的选项的视频编译码器源码基数。VP3的目标是高质量视频和高压缩程度，且可在PC和Macintosh计算机上快速解压。内容可在网上流式传输，或由一本地磁盘驱动器、CD或DVD播放。

当前在QuickTime中支持VP3，且VP3支持视频内容的编码(以QuickTime5.x Pro)和译码(QuickTime 5.x标准)。编码后的视频文件自QuickTime StreamServer流式传输或由一网络服务器提供以便逐渐下载。对于Mac和PC，VP3可与QuickTime兼容，而且它可实现使用QuickTime Pro编码，或任何其他与QuickTime一致的编码应用。

VP3文件也可使用Windows Media Player(其中文件与Direct X和Video ForWindows平台二者都兼容)播放。Windows的VP3允许使用与Video For Windows相一致的编码器(例如Adobe Premiere和Cleaner)在VP3视频中编码。所述编译码器的译码器部分既与Video For Windows一致又与DirectShow一致。

由于VP3是开放式源码软件，因而编译码器源可免费得到并可整合入定制应用中。对于视频捕捉和编码，虽然可从0n2 Technologies(Open Source Codec forVideo(视频开放式源码编译码器)的发起者)得到视频捕捉和编码功能，但在该行业中对VP3的支持有限。

还有一种叫做“Ogg Vorbis”的开放式源码音频编译码器，其中Ogg Vorbis为非专利性的、开放的、无专利和专利权税的音频格式和编译码器，其用于固定和可变位速率下的中等到高质量的音频以供在因特网上传送。

(iv)开放式源码(服务器)

Real Networks已经宣布了第一个主要的开放式源码流式媒体服务器-“Helix”Universal Server，参见http：//www.realnetworks.com/info/helix/index.html，其支持许多种媒体编译码器(即QuickTime、MPEG-2、MPEG-4、WindowsMedia、Real Media，等等)，并还提供对一用于增强和扩展所述媒体服务器的开放式源码基数的访问。在按照上文所概述将新的种类的流式媒体算法及协议构建为DIVER流时，此种新服务器可能非常适用于实践者。其也可适用于建立用于DIVER的定制的Helix编码器和客户侧播放器(叫做“HelixDNA播放器”)。

表1提供在本节中所引用的关于数字影像的处理和分发的技术参考文献的列表，以供感兴趣的实践者进一步参考和查阅。

表1-参考文献

Foster，I.Kesselman，C，Tuecke，S.(2001)″The Anatomy of the Grid：Enabling Scalable Virtual Organizations，″International J.SupercomputerApplications，15(3)，2001年。

Rutledge，S.，Medicke，J.(2001)″Building Federated Systems withRelational Connect and Database Views，″IBM e-business Solution IntegrationTechnical White Paper，2001年。

Arman，F.，Hsu，A及Chiu，M.(1993)″Image Processing on Compressed Datafor Large Video Databases，″Proceedings of the First ACM InternationalConference on Multimedia，1993年8月。

Smith，B.及Rowe，L.(1993)″Algorithms for Manipulating CompressedImages，″IEEE Computer Graphics and Applications，1993年9月，第13卷，(no.5)：第34-42页。

Vichare，R.，及Borovick，L.(2002)″Content Caching Vendor Market Share，″2001，IDCBulletin#26785，2002年3月。

Chang，E.，及Yap，C.(1997)″A Wavelet Approach to Foveating Images，″Proc13th ACM Symposium on Computational Geometry，第397-399页，1997年。

Chang，E.，Yap，C.及Yen，T.(1997)″RealTime Visualization of Large imagesover a Thinwire，″IEEE Visualization 97(Late Breaking Hot Topics)，Tucson，Arizona.，1997年10月19-24日。CD and Video Proceedings.

Ramella，G.，Sanniti，G.(2001)″Shape and Topology Preserving Multi-ValuedImage Pyramids for Multi-Resolution Skeletonization，″Pattern RecognitionLetters，第22卷，No.5，第741-751页，2001年。

Cohen，M.F.，Chen，S.E.，Wallace，J.R.，Greenberg，D.P.(1988)″AProgressive Refinement Approach to Fast Radiosity Image Generation，″SIGGRAPH(1988)第75-84页。

Digital Fountain Corporation (2002)″Digital Fountain′s MetaContentTechnology，″Technology White Paper，2002年4月23日。

Chen，A.(2002)″Girding for Grid Battle，″eWeek Labs Report，第37页，2002年7月22日。

Dyck，T.(2002)″Grid Technical Challenges Daunting，″eWeek Labs Report，第38页，2002年7月22日。

C. 分析和探测

图6-10图解说明称为交互式全景视频映像的概念：即一交互式、可转换的表示法，其有助于用户超越对事件(基本的音频视频记录)表面结构的体验，以便在视频数据中探测和分析更多的抽象式样和关系。我们将这些全景概览称为映像，以强调与传统映像制作和映像理解的类似。如同传统映像一样，一全景视频映像是一比其所代表的真实世界时空事件更为抽象的图像。并且像传统映像一样，为有用，一全景视频映像在强调原始动态事件的那些对现有分析任务有用的特征的同时，过滤掉无关的细节。然而，与传统的纸上映像不同，全景视频映像的强大特征之一是其可以是交互式的；其允许用户选择适合于现有任务的景物抽象层次。

交互式全景映像概览的方案

为了阐明交互式全景映像概览的概念，我们提供四种显示其如何用作本发明应用的用户方案。如实践者将了解，这些方案并非穷尽性，而是旨在提供对人机交互的挑战和机遇的了解，使用本发明即可有利地解决这些挑战和机遇。

方案1.在全景概览内查找注解“热点”

工作空间区230是用户可在其中注解、组织和分析将构成一“DIVE”的遍历(用户对全景视频事件的特定观点)的区域。在先前在图2A和2B中所描绘的实施例中，工作表230由一组面板组成，其中每一面板尤其包含一电影缩略图240、时间码250(d)和一用于注解所述电影的正文框250(a)。现在假定一有兴趣在学生和教师之间进行非语言式交互作用的研究者已经创建了一包含从一教室事件的全景视频中选出的几百个带注解遍历的DIVER工作表。进一步假定所述研究者希望得到这些带注解的“热点”在所述视频中的位置的概览。换句话说，所述注解群集于所述事件中特定时间和空间点的周围？一沿视频时间线显示注解频率的直方图将是查看此等热点的传统方法。不过，传统直方图只显示注解发生的时间，但不显示发生的地点。图7显示一界面窗格，其中带注解的遍历710的缩略图预览730覆盖在一边缘受检测的全景概览720上。

注意，全景概览720已受到边缘检测(一种为实践者所熟知的图像处理方法)和整理，以突出遍历缩略图730的空间位置。因为在标记2D全景内一视频遍历段的x-y位置以进行注解时会自动记录该x-y位置，因此可在2D映像720上显示遍历缩略图730。通过改变一滑动条740的时间范围，用户将以动态方式看到注解活动的空间分布在所述景物内如何改变。举例而言，在下文的实例中，在该时间片期间，看起来有许多该教师处于其讲示工作台上的带注解遍历。为得到更细程度的细节，可在整个所述全景景物内拖动一注解滑动条740；拖动所述滑动条可过滤所述DIVER工作表，以在与所述滑动条相交的显示中仅显示那些带注解的遍历。最后，如先前结合图1-3所述，通过点击一缩略图730(n)在一细节播放器窗口中重放相应的音频片断710(n)，用户便可更进一步地向下观看。

方案2.使用全景视频映像进行数据覆盖

全景概览也可用于信息可视化，尤其用于探测关于自然背景及其对行为的影响的假想。假定一研究者使用DIVER探测一实际课堂课节的全景视频，以便形成深入了解并开始创建分析类别。举例而言，假定所述研究者开发一交互简表并就所述教员所从事的交互作用的种类和时间长度，使用DIVER对所述视频进行编码(如图4所示，使用分类码注解)。将一DIVER编码表中的分析结果视为一遍历列表将不能提供关于交互作用模式与自然背景之间关系的大量深入了解。然而，通过使所述系统将所编码的数据覆盖到一受到边缘检测的全景概览(所述空间的一种等高线图)，研究者即可容易地看到群集于房间的不同空间区域中的各交互作用模式的分布(每一交互式样较佳均由一着色点编码)。图8描绘这样一种显示：其显示以一受到边缘检测的全景景物810为背景绘制的带索引号的数据点820。(此实例显示替代实施例2A和2B对于某些应用的重要性。举例而言，在这里，如果所述全景概览在空间上不直观或不精确，则其作为一可视化映像的适用性可能会受到限制。)不难看出如何在本发明的精神范围内对这一概念作进一步的延伸。举例而言，全景视频映像可用于检查同以物理空间如何可由不同的教师使用或用于不同的对象。另一使用一视频腹腔镜的全景形式进行医学教育的应用能够检查具有不同专业观察力和能力水平的学生如何对同一身体器官进行手术。

方案3.全景视频数据的动态查询

另外，信息可视化技术可帮助用户发现选自一全景流中的数据的式样和关系。举例而言，假定一个对研究学生-教师的交互作用感兴趣的教育研究者已使用了DIVER分类码注解在例如面部表情、手势、学生问问题的频率、讲话时间，等类别方面对一大组视频遍历进行编码。进一步假定所述研究者也能在学生名字、年龄、性别、平均测试得分、声望得分等方面对每一剪辑进行编码。图9中的界面图解说明如何使用动态查询技术来帮助所述研究者探测所述数据中的式样。图9描绘一散点图920，其显示所问问题的平均数与平均测试得分之间的关系。电影缩略图930用于标记数据点。在左边，用户可通过下拉菜单910选择x和y轴的变量。在此实例中，所述研究者已选择绘示所问问题的平均数与平均测试得分之间的关系。

所述散点图有助于研究者看到学生提问题的频率与其测试得分之间的线性关系。所述关系图还有助于用户注意到例外的人930(a)，即平均得分很高但看起来问问题并不多的学生。使用电影缩略图930作为数据点有助于研究者将数据置于上下文中进行分析(contextualize)；能够将外围数据点看作代表一特定的学生可能引发更多的询问。举例而言，通过点击所述电影缩略图，研究者不仅能够在细节窗口950中播放这一特定数据点所表示的视频遍历，而且能够在全景概览940中在其原始空间和时间上下文中看到它。通过此种方式，所述界面会鼓励研究者(以及其他可能在查看所述数据的人)迅速地上下移动抽象标尺(如图10所示)、轻松地链接回到主视频记录以便在上下文中查阅人行为的短暂细节。最后，如先前结合图3所述，所述界面通过如下方式允许进行更细程度的分析：令研究者创建一组空间合成的遍历(一种新的复合电影)，允许她进行更精细的逐帧分析，将(例如)女孩问问题的遍历与男孩问问题的遍历相比较。

一般而言，如图10所示，可以认为用户的分析任务是沿一抽象标尺存在。所述标尺的范围是从对事件1010的直接感觉经历到更具思考性的思维和发现模式1030。并且，对于所述标尺的每一尺度，均将有一相应的呈现(1020，1040)，这种呈现的功能是帮助用户在一特定抽象层次来探测所述事件。事实上，此概念的能力恰好是在研究者专注于所述全景视频记录时使她能够轻松地沿一抽象标尺的任一方向行进的能力。因此，在本发明的较佳实施例中，一全景视频映像是一种可变换的呈现形式，其使用户能够在探测所述全景视频记录时在各抽象层次之间轻松移换。

图6为一流程图，其图解说明一种使用例如图7-10所示视频数据映像来探测和分析视频数据遍历的方法。在600中，显示正被分析的视频数据的一抽象映像。对于刚刚所述的方案，所述抽象映像将分别包括全景概览720(图7)、受到边缘检测的景物810(图8)或散点图920(图9)。在610中，使一标记与正被分析的每一遍历记录相关联。同样，对于刚刚所述的方案，所述标记将包括遍历缩略图像730和930(图7和9)或分类码点820(图8)。在620中，沿所述抽象映像在适当位置处绘示所述标记。在630中，用户以交互方式选择所关心的标记并在640中重放对应的遍历记录，从而在不同的抽象层次之间链接和移换，以便探测所述视频记录，如图10所示。

方案4.全景视频事件的协作性可视化

至此所述的各方案涉及由单个用户分析一全景视频行为记录。可设想，作为一研究者联网社区的一部分，可得到一教室事件的一全景视频。随着时间的经过，许多具有不同背景和观点的研究者可创建与所述全景事件相关的DIVE和分析。如上文结合图5所阐述，在DIVER中用于共享分析的一基本机理是查看网上所公布的DIVER工作表上的串线式讨论。如结合图6-10所阐述，全景视频映像通过使用户能够看到景物上的可视化和数据覆盖(可能是数百或也许数千个用户的总体，每一用户对所述景物均具有其自己的观点)，而提供该概念的强大延伸。如实践者根据本文中的教示所显而易见，可应用动态查询和信息可视化原理来使用户能够将一族观点视为景物上的注解覆盖。举例而言，一显示由以特定颜色或特征形状编码的各个人类学家所作注解的时空群集的数据覆盖。另一实例将是显示由创建可通过一网站访问的动画视频记录的遍历的不同年龄儿童群组(或那些沿其他可度量尺寸的有差别轮廓)所作注解的时空群集的对比式样。

虽然上述联网社区方案涉及与影像有关的非同步DIVE和分析，但是另一方案涉及多个可同时创建与视频或其他影像相关的DIVE的个人，如在讲堂中或对于例如动画等娱乐事件。

图11图示一用于实施本文所述较佳实施例的数字电子装置的网络。创作工作站1100，即一标准个人计算机，包括处理器和存储器1130、显示器1110及输入1120，其用于实施图1所示的创作方法并产生图2-4所示的图形界面显示。

在一变化形式中，遥控装置1140较佳以无线方式连接至工作站1100，从而能够对交互式会话实施方便的手持控制。在某些实施例中，装置1140可包括足够的处理能力和存储能力，以充分控制该逻辑并产生图1-4所示的交互式显示，在此种情形中，装置1100可基本上为一电子显示器，可不必需要独立的计算处理能力1130。

总之，装置1130/1140较佳通过网络1150(例如，因特网或专用内联网)与较佳包括标准网络浏览客户机功能的用户装置1160(a)-(n)连接。该联网装置社区按照图5实施带注解遍历的公布和共享。按照图6-10使用抽象视频映像进行的遍历分析可由任一所配备的处理能力和存储能力足以运行可执行结合所述附图所说明及论述的功能的映射及绘制软件例程的装置1130/1140或1160(a)-(n)独立实施。

本发明的范围不应由所阐释的实施例确定，而应由随附权利要求书及其合法的等效内容确定。

Claims

1、一种用于共享用户对可视数据的观点的交互式电子方法，所述方法包括：

公布一网页，所述网页包括一个或多个遍历记录及一个或多个相关联注解的一列表，所述遍历中每一遍历均包括一基于时间的帧序列，每一帧均为所述可视数据的一空间子集；

响应于一用户浏览所述网页并以交互方式选择所述遍历中的一所选遍历来为所述用户重放所述记录；及

响应于所述用户浏览所述网页并以交互方式提交一添加而在所述网页上添加所述注解。

2、如权利要求1所述的方法，其中所述网页包括一用于显示一当前所选遍历的区域。

3、如权利要求1所述的方法，其中所述网页公布在因特网上。

4、如权利要求1所述的方法，其中所述网页公布在一专用内联网上。

5、如权利要求1所述的方法，其中所述注解中的每一注解均以可视方式编码以表明其作者。

6、如权利要求1所述的方法，其中所述所列出的遍历记录包括至少一个用于指定复数个遍历的一组合的复合遍历，且其中重放进一步包括相邻地重放所述相应复数个遍历的内容。

7、如权利要求6所述的方法，其中相邻地重放包括并排地重放所述复数个遍历。

8、如权利要求6所述的方法，其中相邻地重放包括以窗口中的窗口的格式重放所述复数个遍历。

9、如权利要求1所述的方法，其进一步包括公布所述相关联注解的一索引。

10、如权利要求9所述的方法，其中所述索引可使用一网络浏览器查找，且其中所述索引使得对于所述注解中的每一注解均能够访问一个列出所述相关联遍历记录的网页。

11、如权利要求1所述的方法，其中重放包括将所述所选遍历的视频通过网络流式传输至所述用户。

12、如权利要求11所述的方法，其中流式传输包括根据一或多个选自下列群组的调适因素来调适所述流式传输的视频的分辨率：{网络带宽，CPU能力，被撤消的用户交互作用，凹点}。

13、如权利要求1所述的方法，其中重放包括将所述所选遍历的视频数据从一或多个部署在一连接所述用户与所述公布网页的网络上的高速缓存器件传送至所述用户。

14、一种用于共享用户对可视数据的观点的交互式电子装置，所述装置包括：

用于公布一网页的构件，所述网页包括一个或多个遍历记录及一个或多个相关联注解的一列表，所述遍历中的每一遍历均包括一基于时间的帧序列，每一帧均为所述可视数据的一空间子集；

用于重放的构件，其响应于一用户浏览所述网页并以交互方式选择所述遍历中的一所选遍历而为所述用户重放所述记录；及

用于添加所述注解的构件，其响应于所述用户浏览所述网页并以交互方式提交一添加而在所述网页上添加所述注解。

15、如权利要求14所述的装置，其中所述网页包括一用于显示一当前所选遍历的区域。

16、如权利要求14所述的装置，其中所述网页公布在因特网上。

17、如权利要求14所述的装置，其中所述网页公布在一专用内联网上。

18、如权利要求14所述的装置，其中所述注解中的每一注解均以可视方式编码以表明其作者。

19、如权利要求14所述的装置，其中所述所列出的遍历记录包括至少一个用于指定复数个遍历的一组合的复合遍历，且其中所述用于重放的构件进一步包括用于相邻地重放所述相应复数个遍历的内容的构件。

20、如权利要求19所述的装置，其中所述用于相邻地重放的构件包括用于并排重放所述复数个遍历的构件。

21、如权利要求19所述的装置，其中所述用于相邻地重放的构件包括用于以窗口中的窗口的格式重放所述复数个遍历的构件。

22、如权利要求14所述的装置，其进一步包括用于公布所述相关联注解的一索引的构件。

23、如权利要求22所述的装置，其中所述索引可使用一网络浏览器查找，且其中所述索引使得对于所述注解中的每一注解均能够访问一个列出所述相关联遍历记录的网页。

24、如权利要求14所述的装置，其中所述用于重放的构件包括用于将所述所选遍历的视频通过网络流式传输至所述用户的构件。

25、如权利要求24所述的装置，其中所述用于流式传输的构件包括用于根据一个或多个选自下列群组的调适因素来调适所述流式传输的视频的分辨率的构件：{网络带宽，CPU能力，被撤销的用户交互作用，凹点}。

26、如权利要求14所述的装置，其中所述用于重放的构件包括用于将所述所选遍历的视频数据从一个或多个部署在一连接所述用户与所述公布网页的网络上的高速缓存器件传送至所述用户的构件。