CN103635899A

CN103635899A - 对于视频中的3d和其他信息的集中式数据库

Info

Publication number: CN103635899A
Application number: CN201180062687.6A
Authority: CN
Inventors: S.奥斯曼; V.斯塔梅特
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-10-25
Filing date: 2011-09-22
Publication date: 2014-03-12
Anticipated expiration: 2031-09-22
Also published as: EP2444971A3; WO2012060938A3; US20120102023A1; US9542975B2; CN103635899B; EP2444971A2; WO2012060938A2; JP2012094144A

Abstract

给出了用于视频中的3D和其他信息的集中式数据库的方法和系统。该集中式数据库包含可以被查询的并且在包括对象和声音的添加和移除的视频的编辑中使用的诸如相机、照明、声音、对象、深度和注释的视频元数据。存储在该集中式数据库中的元数据可以对公众开放并且准许贡献者元数据。

Description

对于视频中的3D和其他信息的集中式数据库

相关申请的交叉引用

本申请是2010年10月25日提交的美国申请No.12/911,688（代理案号90619-786152（008000US）（原来是026340-008000US））的继续申请并要求该申请的权益，通过全部引用将其合并于此用于所有目的。

技术领域

本发明的实施例总体上涉及视频元数据的存储和共享，具体地涉及集中的服务器，该集中的服务器存储可以用于产生3-D图像、以适当的照明和声音效果从场景添加或移除对象、提供注释或者编辑场景的诸如相机、照明、声音、对象、深度和注释数据的视频元数据。可以由与视频相关联的各方或者由诸如因特网用户的不相关的贡献者提供元数据。

背景技术

视频产生技术现在可能不能存储捕捉的元数据或者使得捕捉的元数据可能可用。视频编辑技术通常手动完成，比如估计要被插入到现有视频中的以蓝色屏幕背景拍摄（film）的对象所需的光量。

发明内容

本发明的一个实施例指向一种方法，包括：接收要显示在显示器上的视频数据，该视频数据包括视频标识符；利用该视频标识符，为了存储在服务器上的视频元数据查询该服务器，该视频标识符标识该视频元数据，并且该视频元数据包括描述光源相对于捕捉该视频数据的相机的位置的视频照明位置元数据；从该服务器接收该视频元数据，并且利用接收的视频照明位置元数据编辑该视频数据以产生编辑的视频数据，其重新照明与该视频照明位置元数据一致的视频数据；以及将编辑的视频数据输出到显示器。

本发明的另一实施例进一步指向使用视频元数据编辑场景的方法，其中该元数据包括照明数据、声音数据、相机数据、对象分割数据、深度图数据注释数据。

本发明的示例实施例指向从视频数据移除对象的方法，以及其中应用该视频照明位置元数据以确定与剩余的视频数据的照明位置元数据一致的、在移除的对象之后的背景。

本发明的示例实施例指向向该视频数据添加对象的方法，以及其中向添加的对象应用该视频照明位置元数据以便其看起来就像是由该光源照明。

本发明的示例实施例指向一种方法，其中该视频数据的编辑分析相机数据和位置数据以组合由两个或多个相机对于相同的场景捕捉的视频数据，以创建一对立体图像来呈现三维图像。

本发明的示例实施例指向一种方法，其中该视频数据的编辑从该视频移除声音，以及其中应用该视频元数据以便移除的声音符合该声音数据。

本发明的示例实施例指向一种方法，其中使用对象分割数据、深度图数据和注释数据来标识要移除的对象。

本发明的示例实施例指向一种系统，包括：播放器，接收要显示在显示器上的视频数据，该视频数据包括视频标识符，该播放器为了视频元数据利用该视频标识符查询服务器，该播放器从该服务器接收该视频元数据，并且利用接收的视频照明位置元数据编辑该视频数据以产生编辑的视频数据，其重新照明与该视频照明位置元数据一致的视频数据；服务器，存储该视频元数据，该视频元数据包括描述光源相对于捕捉该视频数据的相机的位置的视频照明位置元数据；以及显示器，用于显示编辑的视频。

本发明的示例实施例指向用于修订（revise）电影元数据数据库的方法，该方法包括：从第一贡献者接收对于视频场景的第一元数据贡献；将该第一元数据贡献存储在视频元数据数据库中；从第二贡献者接收对于视频场景的第二元数据贡献，在该第一元数据贡献之后接收该第二元数据贡献；确定该第二元数据贡献比该第一元数据贡献更准确；以及用该第二元数据贡献替换存储在该视频元数据数据库上的该第一元数据贡献的至少一部分。

附图说明

通过参考以下附图可以实现对本发明的特征和优点的进一步理解。在附图中，类似的组件或特征具有相同的参考标记。

图1是根据示例实施例的用于视频元数据的集中式数据库系统的框图。

图2是根据示例实施例的存储在集中式数据库中的视频元数据的类型和组织的框图。

图3是根据示例实施例的描述在哪里捕捉和记录什么视频元数据的示例设置。

图4是例示组合经过一时间段收集的两个2-D图像以产生3D图像的图。

图5A是根据示例实施例的场景的图。

图5B是根据示例实施例的要素被添加和移除的图5A的场景的图。

图6是根据示例实施例的向视频添加对象的处理流程。

图7是根据示例实施例的从视频移除对象的处理流程。

图8是根据示例实施例的编辑场景的处理流程。

图9是适合与本发明的实施例一起使用的示例的计算机系统。

现在将使用附图来例示根据本发明的不同的实施例。这些图是实施例的具体例子并且不应被理解为限制性的实施例，而是示例的形式和过程。

具体实施方式

存储在致密盘上的音乐专辑可能包含专辑标识符，可以用于查询集中的音乐专辑数据库以访问音乐专辑元数据，比如专辑名、各首歌曲标题和艺术家信息。然后可以向用户或者收听者显示此音乐专辑元数据。类似地，可以通过视频标识符标识视频，该视频标识符可以用于查询视频元数据。视频元数据可以包括比音乐元数据多得多的数据，并且可以用于不同的目的，比如用于编辑视频或者创建3-D图像。因此，在本领域中可能存在对于用于视频中的3-D和其他信息的集中式数据库的需要。视频元数据可以由爱好者访问以由他们独立地进行编辑或者由视频播放器访问以实时编辑电影。

用于视频元数据的集中式数据库可以允许用户或者观看者查询和接收可能提供有价值的视频信息的元数据，并另外允许以与原始视频的属性一致这样的方式编辑或显示视频。例如，可以根据描述如何照明其余场景的视频元数据重新照明添加到场景的对象。集中式数据库可以包含注释数据和由与视频的创建相关联方提交的或者来自不相关的贡献者的数据。

关于相对于场景中的对象的相机位置和相机移动以及对象的移动的视频元数据可以允许产生三维图像和视频。此外，照明和声音元数据可以允许以适当的照明和声音效果从场景中添加和去除对象和声音。视频元数据还可以允许编辑视频的各种属性，比如亮度、对比度等等。另外，对象元数据可以用于标识可以在编辑中使用的场景中的对象和人物（character）或者用于提供注释。深度元数据、对象分割数据和其他视频元数据可以用于进一步增强3-D效果或者辅助视频编辑。

在示例实施例中，描述在一个时间段相机相对于场景中的对象的运动的元数据可以用于产生两个图像：在较早时对象的一个图像以及在稍晚时相同对象的另一图像。这两个图像可以稍微不同并且可以与元数据结合使用来确定对象相对于相机和场景中的其他对象如何运动，以便产生可以作为三维图像的基础的一对立体图像。在进一步的实施例中，诸如光类型、光强度和光源下对于场景的位置的照明数据允许以适当照明向场景添加诸如数字创建的对象的新对象。新对象也可以被添加到场景并且并入声音数据以适当地创建新声音。类似的技术可以用于从场景移除对象或声音或者用于编辑场景的光和声品质。

在进一步的实施例中，几何形状(geometry)未知的对象可以被重新照明并且可以从其中对象是静止的但是照射光源旋转的一组参考图像创建对象的可视外壳（visual hull）。在此技术中，对象的诸如多个静止照片的多个参考图像被组合以创建合成图像。在每个参考图像中，光源移动到稍微不同的位置。然后该组参考图像被合并到合成图像文件中，该合成图像文件包含关于光源的位置以及在变化的照明条件下对象的反射率的信息。利用此照明元数据，能够映射对象对光如何反应以及虚拟地重新照明对象。此合成图像将显示该图像并允许光源在图像上移动，示出光源的移动的动画进展。此技术可以使得颜色、纹理和标记更清晰。在示例实施例中，使用多项式纹理映射（polynomial texture map）来创建合成图像。在进一步的实施例中，合成图像是参数的照片。对象的重新照明可以利用双向反射率分布函数。

另外，可以使用外形轮廓重建（shape-form-silhouette reconstruction）方法通过几何近似确定对象的可视外壳。这些方法利用了任意视图中的对象的轮廓重新投影到3-D空间中的锥形上的事实。对象占据的所有空间一定位于该锥形内的某处。在将来自所有可能的视图的所有锥形交叉之后，获得对象的几何形状的保守估计，这称为虚拟可视外壳。

在示例实施例中，可以利用高动态范围呈现来捕捉视频，其中在更大的动态范围找捕捉场景并且该场景稍后被组合以按限制的对比度系数保留细节。例如，可以用两个相机记录单个场景，一个具有高动态范围并且另一个具有低动态范围。相同场景的视频稍后可以被组合以示出更多的细节。

在示例实施例中，在视频抠图处理中使用视频元数据。基于胶片的蓝色屏幕抠图技术是流行的，但是需要使用仔细控制的颜色均匀的背景。但是，诸如自然图像抠图的其他技术已经示出，一旦已经绘出对象的轮廓，就可以从常规图像提取前景（foreground）对象。视频元数据可以标识对象的概况并且进一步的处理可以标识对象本身。在进一步的实施例中，可以使用光流技术经过时间传播描绘了前景、背景和未知区域的手绘的提示图像（trimap）。这些技术可以依赖于元数据来辅助前景对象的标识。

集中式数据库可以容纳由与视频的捕捉相关联的各方提供的元数据。例如，在视频的拍摄中涉及的生产公司可以提供通过其相机捕捉的并且可从其文档直接用于集中式数据库的元数据。可以由跟踪设备捕捉相机和其他设施的位置。在另一实施例中，集中式数据库可以向贡献者输入开放，其中贡献者可以是与视频的拍摄不相关的一方。诸如视频观看者的与视频的拍摄不相关的各方可以向数据库提交元数据，比如标识场景中的人物和对象的元数据。在示例实施例中，贡献者可以通过因特网提交元数据。视频的元数据可以由机构比如利用“wiki”格式来组织。元数据可以由贡献者的机构来组织和更新。视频元数据wki可以由任意用户编辑。因此，个别的贡献可以被该机构判断为更准确的稍后的贡献所代替。

此描述仅提供例子并且不意图限制本发明的范围、适用性或配置。而是，随后的对实施例的描述将为本领域技术人员提供用于实现本发明的实施例的可行的描述。不脱离本发明的精神和范围可以在要素的功能和布置方面进行各种改变。

因此，在适当时，各个实施例可以省略、替换或者添加各种过程或组件。例如，应该理解，在替换实施例中，可以按与所描述的不同的顺序执行方法，并且可以添加、省略或组合各个步骤。而且，可以在各个其他实施例中组合关于某些实施例描述的特征。可以按类似的方式组合实施例的不同方面和要素。

还应该理解，以下系统、方法和软件可以单独地或者共同地作为更大系统的组件，其中其他过程可以优先于其应用或者可以修改其应用。而且，在以下实施例之前、之后或与之同时可能需要多个步骤。

图1是根据示例实施例的用于视频元数据的集中式数据库系统100的框图。数据库104可以是用于存储数据106的集中的服务器，数据106包括诸如3-D和其他视频信息的视频元数据。视频元数据可以包括相机、照明、声音、对象和深度数据。视频元数据还可以包括生产或编辑的数据、信用信息和注释数据。在示例实施例中，视频元数据可以包括由贡献者提交的数据。数据106还可以包括三维数据，比如多个相机的位置和视频以及描述一对立体图像的数据。

可以通过服务器102访问存储在数据库104上的数据106。服务器102可以是网络服务器、FTP服务器、服务器容纳的API、或者连接到网络112并且经过网络112提供数据的服务器。在示例实施例中，网络112可以是因特网、内联网、外部网络、移动网络或者电信网络。播放器110处理可以传输并且在显示器108上显示的视频数据。播放器110可以是数字视频盘（DVD）播放器、3-D处理器、游戏控制台、手持设备、移动电话或者能够处理视频数据用于显示的的任意设备。由播放器110处理的视频信息显示在显示器108上。播放器110可以连接到显示器108。显示器108可以是电视、等离子屏幕、移动电话、计算机屏幕、具有屏幕的可携式计算设备、或者能够显示视频的任意设备。播放器110可以经过网络112与服务器102通信。播放器110可以查询服务器102以为了与播放器110正在处理的视频相关联的数据106而访问数据库104。在示例实施例中，播放器110将向服务器102发送视频标识符以访问与由播放器110播放的并且由该视频标识符标识的视频相关联的视频元数据。播放器110可以将从数据库104或者服务器102取得的视频元数据传输到显示器108。在示例实施例中，播放器110可以处理从服务器102接收的视频元数据以增强或者编辑该视频。在示例实施例中，播放器110可以从数据盘114取得视频数据。数据盘114可以包含存储在数据库104上的数据106的一些并且可以包含视频数据和用于查询服务器102的视频标识符。播放器110可以同时显示存储在数据盘114上的数据以及从数据库104取得的数据。数据106也可以由下载的或者流传输的数据组成。

在示例实施例中，各个贡献者116可以通过网络112与服务器102通信以提交视频元数据贡献。贡献者116可以是与视频的创建不相关联的各个观看者，或者可以是在视频的创建中直接涉及到的各方。贡献者116可以通过与服务器102通信、比如通过经网络接口提交贡献来添加元数据。元数据贡献可以存储在数据库104中用于稍后取回。提交的元数据可以由播放器110或者其他贡献者116取得。在示例实施例中，比如对于网站上的因特网用户，存储在数据库104中的数据106可以通过网络112访问。元数据可以对于一般的因特网用户或者预选的内联网用户的子集是开放的或者可访问的。在示例实施例中，贡献者116可以提供注释或评论。注释和评论可以在视频中的一段时间对具体场景有效，或者可以描述该视频的全部。贡献者116可以提供诸如标识场景中的对象或者表示照明、声音或其它数据的元数据。也可以存在向数据库104贡献数据的其他方法，比如通过直接对服务器102的数据输入。在示例实施例中，视频元数据贡献是估计或者近似，并且可以稍后被更准确的数据而取代。

图2是根据示例实施例的存储在集中式数据库200中的视频元数据的类型和组织的框图。由集中的服务器存储的3D和视频元数据201可以包括相机数据202、照明数据204、声音数据206、对象分割数据208、深度图数据210和注释数据211。可以按单个帧的粒度存储视频元数据。视频元数据可以是稀疏的并且在示例实施例中最小粒度是单个帧。

在示例实施例中，相机数据202可以包括时间数据212。时间数据212可以指示捕捉具体场景、帧或者视频时的一个或多个准确时间。时间数据212可以指示日期、月份、小时、分钟、秒和年。时间数据212还可以包括时区数据、季节数据和视频的长度以及视频中剩余的时间。时间数据212可以用于彼此相关地分析视频和帧，比如描述视频的电影场景或者章节的长度，并且可以结合其他元数据使用。

在进一步的实施例中，相机数据202可以包括镜头参数数据214。镜头参数数据214可以描述在相机镜头正捕捉视频或图像时相机镜头的属性。例如，镜头参数数据214可以描述镜头的变焦、光圈的大小或打开、在适当时的快门速度、镜头是广角还是微距、图像稳定功能的状态、镜头的品牌和型号以及其他镜头参数和配置。可以分析镜头参数数据214以便对场景的编辑看起来就像它们是用具有类似的参数拍摄的那样。

在示例实施例中，相机数据202可以包括说明数据216。说明数据216可以描述在相机正捕捉视频或图像时相机的属性。例如，说明数据216可以包括白平衡、ISO、帧速率、伽马、锐度、亮度、对比度、数据压缩格式、相机的品牌和型号以及其他设置。说明数据216可以描述相机的设置以及传感器的品质。可以分析说明数据216以便对于场景的编辑看起来就像它们是用具有类似的参数拍摄的那样。

在另一示例实施例中，相机数据202可以包括位置数据218。位置数据218可以描述相机在捕捉视频数据时相机的位置。例如，位置数据218可以是GPS数据、经度和纬度坐标或者可以是描述具体位置的数据，比如地址或位置名，例如“中央公园”。位置数据218可以描述相对于其他对象的位置，比如“在悬崖后10英尺”。还可以相对场景中或者场景外的对象或者相对场景、比如相对对焦的对象描述位置数据218。例如，位置数据218可以描述相机和场景中的对象两者正在沿某个方向以某个速率移动。

相机数据202还可以包括视场（perspective）数据220。视场数据220可以描述在具体位置处的相机的视场。例如，视场数据220可以描述相机正面对的方向和角度。视场数据220可以描述相机沿着X、Y和Z轴的角度。这样的数据可以描述相机的高度、其正面对的方向以及其是否正指向上或指向下。可以按多种方式描述视场数据220，比如使用北/南/东/西测量或者通过角或度数或旋转。

目前为止所述的相机数据202可以经过一段时间而捕捉。例如，可以经过一段时间捕捉相机的位置数据218和视场数据220，并且可以将其与时间数据212组合以便例示运动。也可以经过一段时间捕捉诸如镜头参数数据214和相机说明数据216的其他相机数据点，例如以记录在十分钟的电影期间参数如何改变。根据基于时间的数据，可以得出相机的速度和加速度222。例如，可以测量相机以某个速率的速度和加速度从点A移动到点B，接下来从以另一速率的速度和加速度从点B移动到点C。相机数据202还可以描述多于一个相机。例如，可以随着时间经过而记录两个或多个相机的位置和设置。

3D和视频元数据201可以包括照明数据204。照明数据204可以包括与相机时间数据212的格式类似但是是有关于光源的时间数据224。时间数据224可以描述在具体时间点时的光源并且可以用于跟踪光源以稍后编辑场景。时间数据224还可以描述关于帧序列内的具体帧的光源。例如，该数据可以跟踪光源随时间经过可如何改变。在示例实施例中，照明数据204可以包括与相机位置数据218的格式类似但是是关于光源的位置数据226。位置数据226可以描述光源的位置并且可以用于稍后编辑场景。例如，可以在经度和纬度坐标方面或者通过GPS数据描述位置数据224。位置数据224还可以是相对于场景或者场景中或场景外的对象而言。例如，可以将光源描述为在主相机后面10英尺并且在其左边10英尺。

照明数据204可以包括强度数据228、类型数据230和视场数据232。强度数据228可以描述具体光源的亮度或者瓦特数。类型数据228可以描述光的类型以及光源的其他品质，比如颜色、温度、焦点、水池灯（pool light）的大小、投射（throw）的深度、调光器级别、对焦的对象和诸如遮光器或挡光板或其他设备的任何遮蔽设备的使用。类似于相机视场数据220的格式，视场数据232可以描述在一位置处的光源的视场。类似于相机视场数据220的格式，视场数据232可以描述光源的角度和方向。在示例实施例中，可以在X、Y和Z轴方面描述视场数据232。可以将各种类型的照明数据232与时间数据224组合以随着时间经过而分析光源，比如以得到速度和加速度。照明数据204也可以描述多于一个光源。例如，可以随着时间经过而记录两个或多个光源的位置和属性。照明数据204还可以描述光源相对于站点对象（station object）的位置，比如以创建合成图像、多项式纹理图或者参数照片。照明数据204还可以描述高动态范围呈现数据。

3D和视频元数据201还可以包括声音数据206。声音数据206可以描述视频内的声音。在示例实施例中，声音数据206包括与相机时间数据212的格式类似的时间数据234。时间数据234可以随着时间经过而记录声源、比如演员的嘴或者汽车喇叭或者声音记录设备的位置。时间数据234可以描述声源或者声音记录设备两者。时间数据234还可以关于帧序列内的具体帧描述声源或者记录设备。在示例实施例中，声音数据206可以包括与相机位置数据218的格式类似的位置数据236。位置数据236可以描述诸如麦克风的记录设备或者声源的位置。可以在GPS坐标数据、经度和纬度方面或者相对于场景中的其他对象描述位置数据236。声音数据206可以包括与相机视场数据220的格式类似的视场数据238。声音视场数据238描述诸如通过X、Y和Z轴测量的声源的角度和方向。例如，声音视场数据238和声音位置数据236可以指示声源正来自于主相机的后上方。在示例实施例中，声音数据206可以包括声音特性数据240。声音特性数据240描述记录的声音的品质，比如音高、响度、相位、方向、距离、音色、声音是处于单声道、立体声、环绕声、回声还是其他声音输出配置。声音特性数据240还可以描述声音记录设备的属性。可以将各种类型的声音数据206与时间数据234组合以随着时间经过分析声源或者声音记录设备，比如以得到速度或加速度。声音数据202也可以描述多于一个声源或者声音记录设备。例如，可以随着时间经过记录两个或多个麦克风的位置和属性。声音数据206还可以描述音乐，比如歌曲标题、艺术家、音轨和乐谱(score)数据、版权、播放的曲调、播放的乐器和歌词。声音数据206还可以描述声音的内容，比如字幕等。在示例实施例中，一些声音可能不具有声源，比如旁白音（narrative voice）。声音数据206还可以描述语言数据并且可以映射（map）声音将如何在多个诸如2.1、5.1和7.1音频系统的扬声器系统上输出。

3D和视频元数据201还可以包括对象分割数据208。对象分割数据208可以描述并标识场景内的具体对象。例如，对象分割数据208可以描述二维场景中的某组黄色的像素是黄色电话。这样的对象分割数据可以是图像处理的结果或者可以在呈现(render)数字视频之前从原始三维对象推导出。在示例实施例中，各个贡献者可以观看视频并且可以向集中式数据库提交标识视频中的对象的数据。例如，视频的观看者可以标识视频中的对象并且将其标识上载到集中的视频元数据库。可以通过名称、年龄、传纪、出生日期和其它数据来标识对象。对象分割数据208可以用于对场景移除或添加对象或者编辑场景。对象分割数据208可以包括用户贡献的对象的标识，比如标识对象的轮廓。其还可以描述可视外壳。

3D和视频元数据201可以包括深度图数据210。深度图数据210标识场景中的对象相对于相机的距离。例如，深度图数据210可以描述场景中的树是100米远，而杯子仅是100厘米远。在示例实施例中，可以从多个相机捕捉或者插值深度图数据210，或者可以由贡献者添加。深度图数据210可以用在3-D图像的展示中或者编辑场景中。深度图数据210可以描述多个对象。

3D和视频元数据201还可以包括注释数据211。注释数据211可以包括注释、评论、描述、概括和对场景、视频段或者场景中的对象的描述。注释数据211可以由创建视频的各方提供，或者可以由与视频产生不相关的贡献者给出。可以通过查询集中式数据库而向观看者给出注释数据211。3D和视频元数据201还可以包括用于组织元数据的其他形式和手段。

3D和视频元数据201还可以包括合成数据212。合成数据212支持通过多个层的合成而制成的视频。例如，合成数据212可以将场景的背景和前景描述为分离的层，这些分离的层稍后被组合以创建最终的视频。因此，如果来自背景的对象被移除，描述背景的合成数据212可以用于编辑场景。在示例实施例中，3D和视频元数据201还可以包括双向反射率分布函数数据和描述未被包含在场景中的对象和设置的数据。

图3是根据示例实施例的将视频元数据记录在哪里的示例设置200。在此设置中，由虚线矩形指示的场景302表示正由第一相机304捕捉的图像或视频的尺寸。在场景302的前景中，人306正朝向场景302的右边缘奔跑。跟随人306的是野兽307，其也正朝向场景302的右边移动，但是以比人306更高的速度行进。稍微在人306和野兽307后方的是静止的树308。在场景302的背景中是太阳309，其也是静止的并且正照射场景302中的对象（人306、野兽307和树308）。

两个光源310、312也在照射该场景。每个光源310、312处于不同的位置，离场景302不同距离，以不同的角度倾斜，并且保持在不同的高度。瓦特数、类型、照明效果和其他照明特性和设置也可以在光源310、312之间变化。光源310正向场景的右边移动。

第一相机304也在向场景302的右边缘移动。第一相机304可以正以与人306或者野兽307的速率相等或不同的速率移动。第二相机305从与第一相机304稍微不同的角度捕捉相同的场景302。第二相机305处于不同的位置和角度并且是静止的。第二相机305还可以处于不同的高度并且可以使用不同的镜头参数和相机设置。

诸如麦克风的两个记录设备314、316记录声源。两个记录设备314、316可以存在于不同的位置处，可以停留在不同的高度，可以从不同的视场和角度定位，并且可以利用不同的设置。记录设备314、316可以记录来自诸如人306或者野兽307的各个声源的声音。记录设备314、316和声源306、307可以随着时间经过而移动。在此例子中，记录设备316正向右移动。

此设置300例示了可以由视频元数据描述的数据的类型。例如，相机元数据可以描述第一相机304相对于场景302中的对象的位置。使用时间和位置数据，元数据还可以在诸如速度和加速度的属性方面描述第一相机304的运动。相机元数据还可以描述第二相机305的位置及其相对于第一相机304以及场景302中的对象的随着时间经过的位置。视场元数据可以描述相机304、305例如沿着X、Y和Z轴的角度、高度和旋转。相机元数据还可以记录记录了视频的相机304、305以及镜头的设置和属性。

光元数据可以描述光源310、312以及太阳309通常相对于彼此的以及相对于场景302中的对象的位置。时间和位置数据可以用于确定光源310、312以及太阳309的运动以及诸如速度和加速度的属性。光元数据还可以捕捉光源309、310、312的诸如光的类型和强度的属性和设置。光元数据还可以捕捉诸如太阳309的自然光源、反射或者间接光源。

声音元数据可以描述记录设备314、316和声源306、307通常相对于彼此以及相对于场景302中的其他对象的位置。例如，可以确定脚步的声音来自于人306正走在的地上。时间和位置数据可以用于确定第二记录设备316和声源306、307的运动以及诸如速度和加速度的属性。声音元数据还可以捕捉记录设备314、316的诸如灵敏性的特性。

对象分割数据可以标识场景302中的对象。例如，对象分割数据将能够辨别人306、野兽307、树308和太阳309以区分彼此。对象分割数据还可以描述每个对象的要素，比如人306的胳膊和腿。对象分割数据可以在一段时间跟踪对象，例如当人306和野兽307跑步穿过场景302时辨别人306和野兽307。深度图数据可以描述对象离记录相机的距离。例如，深度图可以示出人306和野兽307两者离相机20英尺远，并且树308离相机三百英尺远。

图4是例示经过一段时间收集的两个2-D图像的组合以产生3D图像。左图像402是在时间T时人的对象的图像。右图像404是在稍晚的时间T+Δ时该人的相同对象的图像。左图像402和右图像404可以稍微不同，因为在时间Δ期间对象可能移动。图像402、404可以用作一对立体图像以创建三维图像。在示例实施例中，可以利用视频元数据来创建三维图像。例如，位置、时间和对象数据可以用于标识场景中的对象和它们正移动的方向以便适当地创建三维图像。也可以使用场景中的对象相对于相机的速度和加速度。例如，如果安装在以每小时五十英里行进的汽车上的相机正拍摄以每小时五十五英里在相同方向上行进的火车，则三维效果应该使得其看起来就像火车正在向前移动而背景可以保持二维。

在示例实施例中，还可以通过组合来自拍摄相同场景的两个或多个相机的两个图像而产生两个立体图像。例如，视频元数据可以指示拍摄相同场景的两个相机分开20度。使用视频元数据，可以从两个相机插值出一对立体图像。在示例实施例中，诸如对象分割和深度数据的视频元数据可以用于创建三维图像。分离的程度可以小并且可以与多于两个相机组合以产生多个3-D图像。

在示例实施例中，将二维视频转换为三维视频的处理也可以分析视频元数据。例如，可以考虑照明和相机数据以标识场景中的对象并校准三维呈现。另外，对象和深度数据可以用于标识应该以三维投影的对象。

图5A是根据示例实施例的场景507的图。在此场景中，野兽502正在追赶人504。在背景中是静止的树506和照射该场景的太阳508。在示例实施例中，与拍摄的场景有关的元数据可以存储在用于视频元数据的集中式数据库中。

图5B是根据示例实施例的添加和移除了要素的图5A的场景508的图。利用集中式数据库存储的元数据可以用于编辑场景或视频。在此例子中，已经在当前场景508中移除了原始场景507中的人504。视频元数据可以用于从场景适当地移除对象。在示例实施例中，时间和位置信息可以用于通过寻找在另一时间时场景的图像来推断或确定在此场景中的移除的人504后面的背景看起来是什么样。例如，元数据可以指示先前帧包括相同的背景而没有人504，其中相机处于相同的位置和视场并且照明数据相同，并且其中该背景可以简单地叠加在新场景508上。在示例实施例中，视频元数据可以指示先前帧包含具有诸如不同的相机或镜头参数或者不同的照明或位置数据的稍微不同的品质的背景。在此情况下，元数据可以用于调整该先前帧以最佳地匹配于并使得其兼容于当前帧的视频元数据设置。例如，如果先前帧具有比新场景508少于一个的光源，则可以使用视频元数据利用模拟的另外的光源重新照明来自先前场景的背景。在进一步的实施例中，可以使用位置元数据类似地编辑从稍微不同的视场拍摄的相同背景以外推(extrapolate)为符合新场景508。此外，照明和相机数据可以用于移除阴影并适当地填充对象留下的空间(void)。对象分割和深度图数据还可以帮助标识要从场景移除的对象。

声音数据可以用于移除对象产生的声音，比如人504奔跑的声音。在示例实施例中，可以从视频移除对应于移除的人的脚触到地面时的时间的声音。在示例实施例中，可以标识并移除关于与人504相关联的声源的声音数据。

已经向该场景添加了向左奔跑的更小的人514。视频元数据可以用于向该场景添加对象。例如，如果被添加到场景的对象是计算机产生的，则可以利用与相机、光和声音对应的视频元数据来呈现新对象以便其看起来是由与原始场景507中类似的光照射的并且是通过类似的设施和类似的条件而记录的。还可以处理新对象514产生的声音以与现有音轨对应以使得看起来好像其是由相同的记录设备记录的。

可以调整新场景508中的太阳516以发射更多的光。在示例实施例中，可以重新照明场景。在此，可以调整描述作为太阳516的光源的元数据以增加亮度。这样的调整可以访问（call upon）诸如深度数据、对象分割数据和其他数据的其他元数据以重新照明场景508。

图6是根据示例实施例的向视频添加对象的处理流程。在操作602，为了视频元数据查询视频元数据的服务器。对视频元数据的服务器的查询可以包括视频标识符。在示例实施例中，视频标识符可以是标识唯一的视频元数据条目的唯一的字母数字串或者GUID。在操作604，接收视频元数据。在操作606，关于接收的视频元数据编辑要被添加到视频的对象。在示例实施例中，可以使用照明数据来适当地照明对象。例如，新对象可以被编辑为看起来好像在照明数据中定义的光源正在发射光于新物体上。此外，新对象可以是正发出可以与声音数据相比的声音。然后该视频的声音可以并入来自新对象的声音，就像该声音是由原始记录设备记录的一样。这可以保留环绕声特性。可以使用对象和深度数据来将新对象放置在视频中的其他对象的环境（context）中，比如以维持视场或者阴影效果。新添加的对象也可以被添加到视频元数据数据库。在操作608，新对象被添加到视频。

图7是根据示例实施例的从视频移除对象的处理流程。在操作702，为了视频元数据查询视频元数据的服务器。对视频元数据的服务器的查询可以包括视频标识符。在示例实施例中，视频标识符可以是标识唯一的视频元数据条目的唯一的字母数字串或者GUID。在操作704，接收视频元数据。在操作706，从视频移除对象。在示例实施例中，可以通过元数据标识对象。例如，对象、深度、合成或者注释数据可能能够标识场景中的具体对象，比如二维或三维显示器中的一组像素。在操作708，可以填充由对象的移除留下的空区域。可以用符合其余场景的新背景编辑该视频。例如，可以从视频的先前帧确定在移除的对象后面的背景。如果不能进行准确的替换，可以利用相机、照明、合成和其他元数据来外推背景。在示例实施例中，可以分析元数据以还移除由被移除的对象产生的声音。例如，如果某个对话或声音与移除的对象相关联，则可以从音轨移除它们。

在示例实施例中，可以使用利用视频元数据标识前景对象的视频抠图技术来标识要从场景移除的对象。

图8是根据示例实施例的编辑场景的处理流程。在操作802，为了视频元数据查询视频元数据的服务器。对视频元数据的服务器的查询可以包括视频标识符。在示例实施例中，视频标识符可以是标识唯一的视频元数据条目的唯一的字母数字串或者GUID。在操作804，接收视频元数据。在操作806，使用视频元数据编辑视频。视频的编辑可以分析视频元数据以便编辑被均匀并且一致地应用于视频。例如，对照明的调整可以传播到视频中的所有对象，并且可以考虑诸如对象和深度数据的因素。

在示例实施例中，可以使用合成图像、参数图像或者多项式纹理映射重新照明场景。可以利用视频元数据来使能图像和视频的高动态范围呈现。还可以处理描述可视外壳的视频元数据以重新照明对象的轮廓。可以使用描述在不同时间时的相同场景的元数据来重新照明场景。例如，元数据可以描述白天和夜间期间的相同场景。可以使用夜间数据来将白天的场景重新照明为夜间场景。

图9是适合于与本发明的实施例一起使用的示例的计算机系统。此框图例示了适合于实践本发明的实施例的计算机系统1300，比如个人计算机、视频游戏控制台和相关联的显示器（例如图1的服务器102和播放器110）、个人数字助理或者其他数字设备。计算机系统1300包括用于运行软件应用以及可选地运行操作系统的中央处理单元（CPU）1305。CPU1305可以由一个或多个同质的或者不同质的处理核构成。存储器1310存储用于CPU1305使用的应用和数据。储存器1315提供非易失性储存器以及用于应用和数据的其他计算机可读介质，并且可以包括固定的盘驱动器、可移除的盘驱动器、快闪存储器器件以及CD-ROM、DVD-ROM、蓝光、HD-DVD或者其他光存储设备、以及信号传输和存储介质。用户输入设备1320将来自一个或多个用户的用户输入传递到计算机系统1300，用户输入设备1320的例子包括键盘、鼠标、操纵杆、触摸垫、触摸屏、相机或摄像机和/或麦克风。网络接口1325允许计算机系统1300经由电子通信网络与其它计算机系统通信，并且可以包括经过局域网和诸如因特网的广域网的有线或无线通信。音频处理器1330被适配为从CPU1305、存储器(memory)1310和/或储存器(storage)1315提供的指令和/或数据生成模拟或数字音频输出。包括CPU1305、存储器1310、数据储存器1315、用户输入设备1320、网络接口1325和音频处理器1330的计算机系统1300的组件经由一条或多条数据总线1335而连接。

图形子系统1340进一步与数据总线1335和计算机系统1300的组件连接。图形子系统1340包括图形处理单元（GPU）1345和图形存储器1350。图形存储器1350包括用于存储输出图像的每个像素的像素数据的显示存储器（例如帧缓冲器）。图形存储器1350可以集成在与GPU1345相同的设备中、作为单独的设备与GPU1345连接、和/或实现在存储器1310内。可以直接从CPU1305向图形存储器1350提供像素数据。或者，CPU1305为GPU1345提供用于定义期望的输出图像的数据和/或指令，根据该数据和/或指令，GPU1345生成一个或多个输出图像的像素数据。该定义期望的输出图像的数据和/或指令可以存储在存储器1310中和/或图形存储器1350中。在一个实施例中，GPU1345包括3D呈现能力，3D呈现能力用于从定义场景的外形、照明、遮挡、纹理、移动和/或相机参数的指令和数据产生输出图像的像素数据。GPU1345还可以包括能够执行着色器(shader)程序的一个或多个可编程执行单元。

图形子系统1340从图像存储器1350周期地输出图像的像素数据以显示在显示设备1355上。显示设备1355可以是能够响应于来自计算机系统1300的信号而显示视觉信息的任何设备，包括CRT、LCD、等离子体和OLED显示器。计算机系统1300可以为显示设备1355提供模拟或数字信号。

根据各个实施例，CPU1305是具有一个或多个处理核的一个或多个通用微处理器。可以使用具有特别适配用于诸如媒体和交互娱乐应用的高并行和计算强度的应用的微处理器架构的一个或多个CPU来实现进一步的实施例。

应该注意，以上讨论的方法、系统和设备仅意图作为例子。必须强调，各个实施例可以在适当时省略、替换或者添加各种过程或者组件。例如，应该理解，在替换实施例中，所述方法可以按与所述不同的顺序执行所述方法，并且可以添加、省略或组合各个步骤。而且，可以在各种其他实施例中组合关于某些实施例所述的特征。可以按类似的方式组合实施例的不同方面和要素。而且，应该强调，技术不断发展以及因此的许多要素是例子并且不应被解释为限制本发明的范围。

在描述中给出了具体细节以提供对实施例的全面理解。但是，本领域技术人员将理解，可以没有这些具体细节而实践实施例。例如，已经示出公知的电路、处理、算法、结构和技术而没有不必要的细节以便避免混淆实施例。

而且，要注意，可以将实施例描述为被绘出为流程图或框图的处理。尽管每个可以将操作描述为顺序的处理，但是可以并行或同时地进行许多操作。另外，可以重新布置操作的顺序。处理可以具有图中未包括的另外的步骤。

此外，如在此公开的，措辞“存储器”或“存储器单元”可以表示用于存储数据的一个或多个器件，包括只读存储器（ROM）、随机存取存储器（RAM）、磁RAM、核心存储器、磁盘存储介质、光存储介质、快闪存储器器件或者用于存储信息的其他计算机可读介质。措辞“计算机可读介质”包括但不限于可携的或者固定的存储器件、光存储器件、无线信道、sim卡、其他智能卡和能够存储、包含或携带指令或数据的各种其他介质。

此外，可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实现实施例。当以软件、固件、中间件或微代码实现时，用于进行所需的任务的程序代码或者码段可以存储在诸如存储介质的计算机可读介质中。处理器可以进行所需的任务。

已经描述了几个实施例，本领域技术人员将认识到，不脱离本发明的精神可以使用各种修改、替换构成和等效。例如，以上要素可以仅仅是更大的系统的组成部分，其中其他规则可以优先于或者修改本发明的应用。而且，可以在考虑以上要素之前、期间或者以后采取多个步骤。因而，以上描述不应被认为是限制本发明的范围。

Claims

1.一种方法，包括：

接收要显示在显示器上的视频数据，该视频数据包括视频标识符；

利用该视频标识符，为了存储在服务器上的视频元数据查询该服务器，该视频标识符标识该视频元数据，并且该视频元数据包括描述光源相对于捕捉该视频数据的相机的位置的视频照明位置元数据；

从该服务器接收该视频元数据，并且利用接收的视频照明位置元数据编辑该视频数据以产生编辑的视频数据，其重新照明与该视频照明位置元数据一致的视频数据；以及

将编辑的视频数据输出到显示器。

2.如权利要求1的方法，其中该视频元数据包括照明数据、声音数据、相机数据、对象分割数据、深度图数据、合成数据和注释数据。

3.如权利要求1的方法，其中该视频数据的编辑从该视频数据移除对象，以及其中应用该视频照明位置元数据以确定与剩余的视频数据的照明位置元数据一致的、在移除的对象之后的背景。

4.如权利要求1的方法，其中该视频数据的编辑向该视频数据添加对象，以及其中向添加的对象应用该视频照明位置元数据以便其看起来就像是由该光源照明。

5.如权利要求1的方法，其中该视频数据的编辑通过分析该视频照明位置元数据来重新照明该视频数据以关于光源而照明该视频数据。

6.如权利要求2的方法，其中该视频数据的编辑分析相机数据和位置数据以组合由两个或更多个相机对于相同的场景捕捉的视频数据，以创建一对立体图像来呈现三维图像。

7.如权利要求2的方法，其中该视频数据的编辑从该视频移除声音，以及其中应用该视频元数据以便移除的声音符合该声音数据。

8.如权利要求3的方法，其中使用对象分割数据、深度图数据和注释数据来标识要移除的对象。

9.一种系统，包括：

播放器，接收要显示在显示器上的视频数据，该视频数据包括视频标识符，该播放器为了视频元数据利用该视频标识符查询服务器，该播放器从该服务器接收该视频元数据，并且利用接收的视频照明位置元数据编辑该视频数据以产生编辑的视频数据，其重新照明与该视频照明位置元数据一致的视频数据；

服务器，存储该视频元数据，该视频元数据包括描述光源相对于捕捉该视频数据的相机的位置的视频照明位置元数据；以及

显示器，用于显示编辑的视频。

10.如权利要求9的方法，其中该视频元数据包括照明数据、声音数据、相机数据、对象分割数据、深度图数据和注释数据。

11.如权利要求9的方法，其中该播放器编辑该视频数据以从该视频数据移除对象，以及其中应用该视频照明位置元数据以确定与剩余的视频数据的照明位置元数据一致的、在移除的对象之后的背景。

12.如权利要求9的方法，其中该播放器编辑该视频数据以向该视频数据添加对象，以及其中向添加的对象应用该视频照明位置元数据以便其看起来就像是由该光源照明。

13.如权利要求9的方法，其中该播放器通过分析该视频照明位置元数据来重新照明该视频数据以关于光源而照明该视频数据。

14.如权利要求10的方法，其中该播放器通过分析相机数据和位置数据以组合由两个或多个相机对于相同的场景捕捉的视频数据来编辑视频数据，以创建一对立体图像来呈现三维图像。

15.如权利要求10的方法，其中该播放器编辑电影以从该电影移除声音，以及其中应用该视频元数据以便移除的声音符合该声音数据。

16.如权利要求11的方法，其中该播放器分析对象分割数据、深度图数据和注释数据来标识要移除的对象。

17.一种方法，包括：

从第一贡献者接收对于视频的第一元数据贡献；

将该第一元数据贡献存储在视频元数据数据库中；

从第二贡献者接收对于视频的第二元数据贡献，该第二元数据贡献在该第一元数据贡献之后接收；

确定该第二元数据贡献比该第一元数据贡献在描述视频方面更准确；以及

用该第二元数据贡献替换存储在该视频元数据数据库上的该第一元数据贡献的至少一部分。

18.如权利要求17的方法，其中该第一贡献者和该第二贡献者是因特网用户。

19.如权利要求17的方法，其中存储在视频元数据数据库中的元数据对于因特网用户可访问。

20.如权利要求17的方法，其中存储在视频元数据数据库中的元数据包括相机数据、照明数据、声音数据、对象分割数据、深度图数据和注释数据。