CN105745938A

CN105745938A - 多视角音频和视频交互式回放

Info

Publication number: CN105745938A
Application number: CN201480063262.0A
Authority: CN
Inventors: 尼尔·比克贝克; 伊萨西·因古瓦; 达米安·凯利; 安德鲁·克劳福德; 休·登曼; 佩里·托宾; 史蒂文·本汀; 阿纳尔·科卡拉姆; 杰里米·多伊格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-11-20
Filing date: 2014-11-20
Publication date: 2016-07-06
Anticipated expiration: 2034-11-20
Also published as: US11816310B1; AU2020244380A1; KR20160085346A; AU2019202114B2; WO2015077507A1; KR20170143005A; JP2017504234A; US20150143239A1; AU2019202114A1; BR112016009772A2; US10754511B2; BR112016009772A8; EP3072305B1; AU2020244380B2; KR101869437B1; US20240086041A1; EP3072305A4; CN105745938B; EP3072305A1; KR102054548B1

Abstract

一种交互式多视角模块识别与真实世界事件相关联的多个媒体项，所述多个媒体项中的每一个包括视频部分和音频部分。该交互式多视角模块根据公共参考时间线同步所述多个媒体项中的每一个的音频部分，确定与所述多个媒体项中的每一个相关联的相对地理位置并且至少基于同步的音频部分和相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。

Description

多视角音频和视频交互式回放

技术领域

本公开涉及媒体观看服务领域，并且具体地，涉及多视角音频和视频交互式回放。

背景技术

在互联网上，内容共享平台或者其它应用允许用户上传、观看和共享诸如媒体项的数字内容。这种媒体项可包括音频剪辑、电影剪辑、TV剪辑和音乐视频，以及诸如视频博客、简短原创视频、图片、照片、其它多媒体内容等的业余爱好内容。用户可使用计算装置(诸如，智能电话、蜂窝电话、膝上型计算机、台式计算机、上网本、平板计算机)来使用、播放和/或消费媒体项(例如，观看数字视频，收听数字音乐)。

随着视频共享和社交网络平台的普及，由用户生成的视频量不断增加。对于具有多个参与者的事件，诸如体育赛事或音乐会，许多视频被上传，涵盖了不同的视点和不同的时刻。当前视频共享站点尝试对这些视频进行推荐和排名，以便给予用户事件的所有可用视频。然而，所有视频内容通常呈现在搜索查询结果的无组织的列表中，而视频相对于事件的精确时间和视点却被丢失。因此，用户将往往仅观看到事件的单个视频，从而使得他们看到由单个内容创建者可见的通向事件的较小门户。

发明内容

以下是本公开的简要发明内容，以便提供本公开的一些方面的基本理解。此发明内容不是本公开的详尽概述。它既不旨在识别本公开的关键或决定性元素，也没有勾画本公开的特定实现方式的任何范围或者权利要求的任何范围。其唯一目的是作为稍后呈现的具体实施方式的前序，以简化形式呈现本公开的一些构思。

在一个实现方式中，一种交互式多视角模块识别与真实世界事件相关联的多个媒体项，所述多个媒体项中的每一个包括视频部分和音频部分。交互式多视角模块根据公共参考时间线同步所述多个媒体项中的每一个的音频部分，确定与所述多个媒体项中的每一个相关联的相对地理位置，以及至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。在一个实现方式中，交互式多视角模块还通过基于所同步的音频部分组合所述多个媒体项，来生成与真实世界事件相关联的单个编辑的媒体项。

为了识别与真实世界事件相关联的所述多个媒体项，交互式多视角模块确定具有识别所述真实世界事件的元数据的媒体项。为了同步所述多个媒体项中的每一个的音频部分，交互式多视角模块对所述多个媒体项中的每一个确定时间偏移，所述时间偏移最大化或以其他方式增加各个音频部分的基于频率的音频谱图之间的相关性，其中，所述时间偏移表示公共参考时间线上的位置。确定与所述多个媒体项中的每一个相关联的相对地理位置包括：交互式多视角模块基于所述多个媒体项中的每一个中可见的多个点，确定在真实世界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。

在一个实现方式中，为了在交互式多视角播放器界面中呈现所述多个媒体项，交互式多视角模块显示表示所述多个媒体项中的每一个的图标，其中，每个图标被显示在基于对应的相对地理位置的位置中。交互式多视角模块接收对表示所述多个媒体项中的第一媒体项的图标的用户选择，并且开始回放第一媒体项。随后，交互式多视角模块在第一媒体项的回放期间与公共参考时间线上的第一点对应的时间处接收对表示所述多个媒体项中的第二媒体项的图标的用户选择，并且在第二媒体项中与公共参考时间线上的第一点相对应的时间处开始回放第二媒体项。在一个实现方式中，交互式多视角模块预测用户将选择的后续媒体项，并且在用户选择所述后续媒体项之前缓冲所述后续媒体项。

附图说明

本公开在附图中通过示例的方式而非以限制方式来说明。

图1是示出可实现本发明的实现方式的示例性网络架构的框图。

图2是示出根据一些实现方式的交互式多视角模块的框图。

图3是示出根据一些实现方式的交互式多视角处理流程的框图。

图4是示出根据一些实现方式的交互式多视角视频生成方法的流程图。

图5A是示出根据实现方式的与公共事件有关的两个媒体项对应的频谱图的示图。

图5B是示出根据实现方式的图5A所示的频谱图之间的相关性分值的曲线图的示图。

图6A和图6B是示出根据一些实现方式的交互式多视角视频回放界面的两个可能呈现的示例的示图。

图7是示出根据一些实现方式的预测和缓冲时间线的示图。

图8是示出根据一些实现方式的示例性计算机系统的框图。

具体实施方式

描述了用于多视角音频和视频交互式回放的实现方式。在一个实现方式中，交互式多视角系统通过从视频中恢复通常在获取/上传过程中丢失的至少两条信息片段，来将取自同一真实世界事件的视频数据组织成交互的、易于理解的并且直观的回放体验。该信息可包括例如相机在拍摄事件时的相机位置以及根据公共参考时间线的视频同步。在恢复位置和视频的时间同步之后，空间信息允许系统创建新型的基于地图的导航界面，从而将视频与其真实世界3D位置相链接。时间同步允许从事件的不同视点的无缝转换，而非如今的大部分共享站点提供的典型播放列表型转换。将视频在空间和时间中进行链接允许用户沿着超过单个视频的持续时间的事件时间线进行搜寻，并且还可允许用户交互地改变视点以得到从不同位置处对事件的感觉。真实世界事件可以是真实世界(例如，不是在互联网上)中发生的能够被观察和捕获(例如，在照片中和视频上)的任何事件。

在一个实现方式中，本交互式多视角系统通过利用基于用户交互、社交反馈和视频质量的线索来预测接下来用户将要选择的最可能的视频视点，克服了对互联网协议传输的带宽的限制，从而在确保无缝视频切换的同时减小了带宽。这种多视角音频和视频交互式回放体验可应用于户外音乐会和体育赛事。例如，在其它实现方式中，众包视频能够用于改进监控，由用户生成的内容能够被耦合至广播画面，或者能够从多个角度呈现用于学习新技能的教程和小技巧。界面也能够与单个编辑的汇总视频(例如，导演剪辑版、或者源自所有视频的混搭)耦合，或者能够使用多个视频来提高集合中的各个视频的质量(例如，改善音频)。

在一个实现方式中，公开了一种用于组织和呈现多视角视频内容的完整系统。由这种系统提供的回放可被称作自由视点视频。用于此任务的现有系统被限制于实验室捕获设备或多视角工作室，在其中容易控制相机的3D姿态和同步(例如，用于校准的基于魔法棒的方法)。这种体育赛事的广播录制同样受益于预先容易进行的校准，这已允许这种自由视点和矩阵式效果用在这种事件的广播画面中。自由视点还包括视角合成，即，使用现有物理相机视角生成新的合成视角。因此，在一个实现方式中，如果由用户提供的视角足够多，则视角合成能够是所描述的框架最上面的可能应用。

图1是示出可实现本公开的实现方式的示例性网络架构100的框图。在一个实现方式中，网络架构100包括客户端装置110A至110Z、网络105、数据存储106、内容共享平台120、服务器130、社交联系平台140、电子邮件平台150和搜索平台160。在一个实现方式中，网络105可包括公共网络(例如，互联网)、私有网络(例如，局域网(LAN)或广域网(WAN))、有线网络(例如，以太网)、无线网络(例如，802.11网络或Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或其组合。在一个实现方式中，数据存储106可以是存储器(例如，随机存取存储器)、高速缓存、驱动器(例如，硬盘驱动器)、闪存驱动器、数据库系统或者能够存储数据的另一类型的组件或装置。数据存储106还可包括多个存储组件(例如，多个驱动器或多个数据库)，该多个存储组件还可横跨多个计算装置(例如，多个服务器计算机)。

客户端装置110A至110Z可各自包括诸如个人计算机(PC)、膝上型计算机、移动电话、智能电话、平板计算机、上网本计算机等的计算装置。各个客户端装置可包括媒体观看器111。在一个实现方式中，媒体观看器111可以是允许用户观看诸如图像、视频、网页、文档等的内容的应用。例如，媒体观看器111可以是能够访问、检索、呈现和/或导航由web服务器提供的内容(例如，诸如超文本标记语言(HTML)页面的网页、数字媒体项等)的web浏览器。媒体观看器111可向用户渲染、显示和/或呈现内容(例如，网页、媒体观看器)。媒体观看器111还可显示嵌入在网页(例如，可提供关于由在线商家销售的产品的信息的网页)中的嵌入式媒体播放器(例如，播放器或HTML5播放器)。在另一示例中，媒体观看器111可以是允许用户观看数字媒体项(例如，数字视频、数字图像、电子书)的独立应用。媒体观看器111可由服务器130和/或内容共享平台120提供给客户端装置110A至110Z。例如，媒体观看器111可以是嵌入在由内容共享平台120提供的网页中的嵌入式媒体播放器。在另一示例中，媒体观看器111可以是从服务器130下载的应用。

在一个实现方式中，内容共享平台120可包括一个或多个计算装置(诸如，机架式服务器、路由器计算机、服务器计算机、个人计算机、主机计算机、膝上型计算机、平板计算机、台式计算机等)、数据存储(例如，硬盘、存储器、数据库)、网络、软件组件和/或硬件组件，上述这些可用于向用户提供对媒体项的访问和/或将媒体项提供给用户。例如，内容共享平台120可允许用户对媒体项进行消费、上传、搜索、点赞(“喜欢”)、不喜欢和/或评论。内容共享平台120还可包括可用于向用户提供对媒体项的访问的网站(例如，网页)。内容共享平台120可包括多个事件列表(例如，事件列表A至Z)。各个事件列表可包括一个或多个媒体项121。媒体项121的示例能够包括但不限于数字视频、数字电影、数字照片、数字音乐、网站内容、社交媒体更新、电子书(ebooks)、电子杂志、数字报纸、数字有声书、电子期刊、网络博客、真正简单聚合(RSS)订阅、电子漫画书、软件应用等。媒体项121可经由互联网和/或经由移动装置应用来消费。为了简明和简单，贯穿本文，在线视频(以下也称作视频)被用作媒体项的示例。如本文所使用，“媒体”、“媒体项”、“在线媒体项”、“数字媒体”和“数字媒体项”可包括能够使用软件、固件或硬件来执行或加载的电子文件，该软件、固件或硬件被配置为向实体呈现数字媒体项。在一个实现方式中，内容共享平台120可使用数据存储106来存储媒体项。

社交联系平台140可包括可用于允许用户彼此联系、共享信息和/或交互的一个或多个计算装置(例如，服务器)、数据存储、网络、软件组件和/或硬件组件。社交联系平台140可向用户呈现由社交网络的其他用户生成的对象(诸如，帖子、内容项(例如，视频、图像、音频等)、状态更新、喜好度指示、标签、消息等)的列表(例如，活动源、源、流、墙等)。社交联系平台140还可包括内容共享方面，该内容共享方面允许用户上传、观看、加标签和共享诸如文本内容、视频内容、图像内容、音频内容等的内容。社交联系平台140的其他用户可对所共享的内容进行评论，发现新内容，位置更新，共享内容，以及以其它方式与所提供的内容交互。在一个实现方式中，内容共享平台120可与社交联系平台140集成。例如，社交联系平台140可使用内容共享平台120来允许用户上传和/或共享内容。在另一实现方式中，社交联系平台140可与内容共享平台120分离。在一个实现方式中，社交联系平台140还可包括聊天功能(例如，聊天平台)以允许用户彼此聊天(例如，即时消息)。

在一个实现方式中，电子邮件平台150可以是可用于允许用户彼此发送和/或接收电子邮件的一个或更多个计算装置(例如，服务器)、数据仓库、网络、软件组件和/或硬件组件。例如，第一用户可使用电子邮件平台150来向第二用户发送关于特定事件的时间和地点的电子邮件。第一用户还可在该电子邮件中附上文件(例如，视频文件、图像文件、文本文件等)。在一个实现方式中，电子邮件平台150还可包括聊天功能(例如，聊天平台)以允许用户彼此聊天(例如，即时消息)。在另一实现方式中，搜索平台160可以是可用于允许用户搜索信息和/或数据的一个或多个计算装置、数据存储、网络、软件组件和/或硬件组件。例如，搜索平台160可允许用户在互联网和/或其它网络上搜索与特定话题(例如，如何修理汽车)有关的文章、博客、网站、网页、图像、视频和/或其它内容。搜索平台160还可包括搜索引擎。

在一个实现方式中，服务器130可包括一个或多个计算装置(例如，机架式服务器、服务器计算机等)。在一个实现方式中，服务器130可包括在内容共享平台120、社交联系平台140、电子邮件平台150和搜索平台160中的一个或多个中。在另一实现方式中，服务器130可与内容共享平台120、社交联系平台140、电子邮件平台150和搜索平台160相分离，但是可与内容共享平台120、社交联系平台140、电子邮件平台150和搜索平台160通信(例如，交换数据)。在一个实现方式中，服务器130包括交互式多视角模块135。交互式多视角模块135可识别与给定事件相关联的视频或其它媒体项并且按照提供交互式多视角回放体验的方式来组织这些视频。在一个实现方式中，交互式多视角模块135识别与给定真实世界事件相关联的视频(例如，描绘事件发生的至少一部分的视频)并且根据所共享的参考时间线自动地同步视频。另外，交互式多视角模块135还可确定用于捕获各个视频的相机的相对位置，以便在交互式多视角播放器界面中显示视频。交互式多视角模块135可通过将与事件相关联的视频的至少一部分组合来生成用于回放的单个代表性“导演剪辑版”视频，或者可接收用户输入以控制在交互式多视角播放器界面中播放哪些视频。将在下面描述交互式多视角模块135的额外细节。

图2是示出根据实现方式的交互式多视角模块135的框图。在一个实现方式中，交互式多视角模块135包括视频发现模块202、音频同步模块204、位置确定模块206、汇总模块208和多视角回放模块210。模块和组件的这种布置方式可以逻辑分离，并且在其它实现方式中，这些模块或其它组件能够根据特定实现方式被组合在一起或者被分立于另外的组件中。在一个实现方式中，数据存储106连接到交互式多视角模块135并且包括媒体项242、事件列表数据244和用户输入数据246。在一个实现方式中，服务器130可包括交互式多视角模块135和数据存储106二者。在另一实现方式中，数据存储106可在服务器130的外部并且可经网络或其它连接来连接至服务器130。在其它实现方式中，服务器130可包括未示出的不同和/或附加的组件，以简化描述。数据存储106可包括一个或多个大容量存储装置，其能够包括例如闪存、磁盘或光盘、或者磁带驱动器；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存；或者任何其它类型的存储介质。

在一个实现方式中，视频发现模块202识别与诸如音乐会、体育赛事或其它事件的真实世界事件相关联的媒体项242。在一个实现方式中，视频发现模块202扫描媒体项242并且识别具有识别真实世界事件的元数据或其它线索的媒体项。所述线索可包括直接从媒体项的音频和/或视频信号所获得的媒体线索(例如，出现在多个视频中的共同视觉或音频信息片段)或者来自与媒体项相关联的元数据的元数据线索。元数据线索可包括视频的标题或描述中的信息、由用户提供的或者由系统生成的标签或类别、与媒体项相关联的日期和时间信息、与媒体项相关联的地理位置信息(例如，GPS数据)、或者其它信息。在确定特定媒体项242与给定真实世界事件相关联时，视频发现模块可将媒体项242增加到与真实世界事件对应的事件列表244。

在一个实现方式中，音频同步模块204根据公共参考时间线同步给定事件列表244中的各个媒体项242的音频部分。在一个实现方式中，音频同步模块为各个媒体项确定时间偏移，该时间偏移增加或最大化各个音频部分的基于频率的音频谱图的相关性。此时间偏移表示公共参考时间线上的位置，其指示与事件相关联的各个媒体项相对于彼此或者相对于真实世界事件的发生而开始的时间。由于媒体项可由用户捕获，所以媒体项可捕获真实世界事件的不同部分。因此，媒体项可在不同的时间开始和结束，并且因此可具有不同的相关联的时间偏移。在一个实现方式中，音频同步模块204将时间偏移存储在事件列表数据244中。

在一个实现方式中，位置确定模块206确定与事件列表244中的各个媒体项242相关联的相对地理位置。在一个实现方式中，位置确定模块206确定在发生真实世界事件时用于捕获各个媒体项的分立的相机的相对位置。位置确定模块206可使用各个媒体项的视频部分中可见的多个点，以便相对于其它位置计算用于捕获各个项的相机的位置。在一个实现方式中，位置确定模块206可相对于彼此和/或可选地使用发生真实世界事件的地点的地理环境(例如，体育场或竞技场)来绘制这些位置。在一个实现方式中，位置确定模块206将所确定的位置信息存储在事件列表数据244中。

在一个实现方式中，汇总模块208生成与真实世界事件相关联的单个编辑的媒体项。在一些实现方式中此编辑的媒体项可被称作“导演剪辑版”。汇总模块208可将多个媒体项242组合在一起以形成导演剪辑版。例如，导演剪辑版可包括特定选择，其被编辑在一起以示出真实世界事件的总结、概述或其它形式的呈现。包括在导演剪辑版中的媒体项可由内容管理者手动地选择，或者汇总模块208可使用各个视频的受欢迎线索，诸如观看次数、评论、共享活动等，来自动地选择媒体项。

在一个实现方式中，多视角回放模块210至少基于同步的音频部分和相对地理位置来将媒体项242呈现在交互式多视角播放器界面中。在一个实现方式中，多视角回放模块210基于由位置确定模块206确定的对应的相对地理位置，在交互式多视角播放器界面中的位置处显示表示各个媒体项的图标。多视角回放模块210接收对表示媒体项之一的图标的用户选择，并且开始回放对应媒体项。多视角回放模块210可将用户选择的指示存储为用户输入数据。在回放第一媒体项期间，用户可选择表示不同媒体项的图标。多视角回放模块210可在与公共参考时间线上接收到请求时的点对应的时间处，开始回放第二媒体项。因此，第二媒体项可在媒体文件的开头以外的点处开始回放。结果，从观看者的角度，视点改变，但是相对于真实世界事件的时序没有改变。

图3是示出根据本公开的实现方式的交互式多视角处理流程的框图。可就各种模块和组件在识别和同步给定真实世界事件的多个视频以便交互式多视角回放中的作用来对其进行描述。在一个实现方式中，处理流程300开始于使用视频数据库310的视频或其它媒体项的视频发现阶段320。视频发现阶段包括识别与给定真实世界事件相关联的视频，并且可由视频发现模块202执行。在方框330，使用在视频发现阶段320期间发现并存储在视频数据库310中的视频来执行音频同步。在一个实现方式中，如上所述，音频同步模块204根据公共参考时间线同步发现的各个视频的音频部分。音频同步330可使用置信度传播算法来以音频信号及时同步视频剪辑。在一个实现方式中，这将考虑所有成对的视频关系，从而允许彼此邻近的视频对最终同步具有更强的影响。在方框340，使用在视频发现阶段320期间发现并存储在视频数据库310中的视频执行位置确定。在一个实现方式中，位置确定模块206确定与各个视频相关联的相对地理位置。可手动地或自动地创建用于基于地图的导航的相机位置的多视角几何因素(以及可选地，3D地图)。可使用计算机视觉算法从视频中提取此信息。常见于体育和音乐会场景的视频中的由于摇摄或者相机抖动而导致的同一相机位置的不同视点可用于帮助提取焦距。在汇总阶段350，至少基于同步的音频部分和相对地理位置，可创建与真实世界事件相关联的单个编辑的视频。在一个实现方式中，汇总模块208可通过组合与在视频发现320期间发现的事件相关联的多个视频来创建“导演剪辑版”视频。在汇总350中，可利用多视角几何度量和信号质量度量(例如，抖动或视频质量)来生成事件的单个汇总视频。回放阶段360包括至少基于同步的音频部分和相对地理位置来将所识别的视频呈现在交互式多视角播放器界面中。在一个实现方式中，多视角回放模块210呈现交互式多视角播放器界面，并且接收选择将显示哪些视频的用户交互。回放和传送360使用以浏览视频合集的方式呈现给用户的UI元素。这可包括允许在视角之间直观切换的3D导航，以及指示在具有最多画面的事件期间在视频或区域中的关键时间的时间线事件条。为了在用户请求新视角时确保平滑转换，系统使用现有视频基础结构并且在通过仅传送实际将显示的内容来将带宽使用保持在最低限度的同时尝试预测用户转换。

图4是示出根据本公开的实现方式的交互式多视角视频生成方法的流程图。方法400可由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑、可编程逻辑、微码等)、软件(例如，在处理装置上运行以执行硬件仿真的指令)或者其组合。方法400可识别与给定真实世界事件相关联的视频或其它媒体项，并且呈现用于媒体项的交互式多视角回放的界面。为了说明简单，本公开的方法被描绘和描述为一系列动作。然而，依据本公开的动作能够按照各种顺序而发生，和/或与本文中没有呈现和描述的其它动作同时发生。另外，可能并非需要所有示出的动作以实现依据所公开的主题的方法。另外，本领域技术人员将理解和认识到，所述方法可另选地经由状态图或事件来表示为一系列相互相关联的状态。另外，应该理解，本说明书中所公开的方法能够存储在制品上，以方便向计算装置传输和传送这种方法。如本文所用，术语“制品”旨在涵盖可从任何计算机可读装置或存储介质访问的计算机程序。在一个实现方式中，方法400可由如图1和图2所示的交互式多视角模块135执行。

参照图4，在方框410，方法400识别与真实世界事件相关联的媒体项。在一个实现方式中，视频发现模块202识别与诸如音乐会、体育赛事或其它事件的真实世界事件相关联的媒体项242。在一个实现方式中，视频发现模块202扫描媒体项242并且识别具有识别了真实世界事件的元数据或其它线索的媒体项。在确定特定媒体项242与给定真实世界事件相关联时，视频发现模块可将该媒体项242增加到与真实世界事件对应的事件列表244。

在方框420，方法400根据公共参考时间线同步媒体项的音频部分。在一个实现方式中，音频同步模块204根据公共参考时间线同步给定事件列表244中的各个媒体项242的音频部分。在一个实现方式中，音频同步模块对各个媒体项确定时间偏移，该时间偏移增加或最大化各个音频部分的基于频率的音频谱图的相关性。此时间偏移表示公共参考时间线上的位置，其指示与事件相关联的各个媒体项相对于彼此或者相对于真实世界事件的发生而开始的时间。

在方框430，方法400确定与各个媒体项相关联的相对地理位置。在一个实现方式中，位置确定模块206确定与事件列表244中的各个媒体项242相关联的相对地理位置。在一个实现方式中，位置确定模块206确定在发生真实世界事件发生时用于捕获各个媒体项的分立的相机的相对位置。位置确定模块206可使用各个媒体项的视频部分中可见的多个点，以便相对于其它位置计算用于捕获各个项的相机的位置。

在方框440，方法400通过基于同步的音频部分组合媒体项来生成单个编辑的媒体项。在一个实现方式中，汇总模块208生成与真实世界事件相关联的单个编辑的媒体项。汇总模块208可将多个媒体项242组合在一起以形成导演剪辑版。例如，导演剪辑版可包括特定选择，其被编辑在一起以示出真实世界事件的总结、概述或其它形式的呈现。包括在导演剪辑版中的媒体项可由内容管理者手动地选择，或者汇总模块208可使用各个视频的受欢迎线索，诸如观看次数、评论、共享活动等，来自动地选择媒体项。

在方框450，方法400基于同步的音频部分和相对地理位置将媒体项呈现在交互式多视角播放器界面中。在一个实现方式中，多视角回放模块210至少基于同步的音频部分和相对地理位置将媒体项242呈现在交互式多视角播放器界面中。在一个实现方式中，多视角回放模块210基于由位置确定模块206确定的对应的相对地理位置，在交互式多视角播放器界面中的位置处显示表示各个媒体项的图标。多视角回放模块210接收对表示媒体项之一的图标的用户选择，并且开始回放对应媒体项。多视角回放模块210可将用户选择的指示存储为用户输入数据。在回放第一媒体项期间，用户可选择表示不同媒体项的图标。多视角回放模块210可在与公共参考时间线上接收到请求时的点对应的时间处，开始回放第二媒体项。因此，第二媒体项可在媒体文件的开头以外的点处开始回放。结果，从观看者的角度，视点改变，但是相对于真实世界事件的时序没有改变。

图5A是示出与公共事件有关的两个媒体项对应的频谱图的示图。图5B是示出图5A所示的频谱图之间的相关性分值的曲线图的示图。在一组视频已被识别为来自于同一真实世界事件之后，可使视频与公共时间线同步。下面在多视角回放界面的背景下描述此处理的细节。

对于N个视频，一个目标是找到对齐音频信号510、520的偏移一致集x_1:N＝(x₁,x₂,…,X_N)。系统可首先使各对信号相关，以测量相对偏移x_ij530。然后通过使用成对信息用公式表示联合概率分布并且使用置信度传播进行推理来获得一致解。置信度传播允许共享更紧密相关的音频信号的附近的成对信号促成最终解的一致性。

可通过从音频信号中选择特征，然后在可能的音频偏移下比较这些特征，来找到使得两个音频信号510、520对齐的时间偏移530。具有最佳匹配分值540的时间偏移能够用于假设时间对齐。存在使用音频信号的特征的若干可能，诸如原始音频信号，或者诸如常用于语言处理MEL频谱或倒谱的频谱方法。在一个实现方式中，系统使用基于频率的特征，音频谱图s_i(t,w):[0,T_i-1]xΩ:→R，其测量输入视频i中时间t处的波长w∈Ω的频谱功率，其中T_i是输入音频信号i的长度。为了匹配，系统可使用零归一化的互相关性作为一对谱图的一致性的度量，因为归一化使得比较对重叠长度不敏感。图5A示出了当前由于错误的偏移而未对齐的两个谱图510、520，图5B示出指示正确对齐的两个谱图的零均值归一化互相关性(ZNCC)。

归一化互相关函数f_ij(t):[1-T_j,T_i-1]→[-1,1]是零归一化和长度归一化谱图s_i、s_j的相关性，并且被定义为

f_{i j} (t) = \underset{τ &Element; T_{i j} (t)}{Σ} \underset{w}{Σ} \frac{(s_{i} (τ, ω) - \overset{&OverBar;}{s_{i}} (τ)) (s_{j} (τ - t, ω) - \overset{&OverBar;}{s_{j}} (t))}{\hat{s_{i}} (t) \hat{s_{j}} (τ - t)} - - - (1)

其中T_ij(t)＝[max(0,t),min(T_i-1,t+T_j-1)]是重叠的区域，信号的均值和长度取自同一重叠区域上。

\overset{&OverBar;}{s} (t) = \frac{1}{| T_{i j} (t) | | Ω |} \underset{τ &Element; T_{i j} (t)}{Σ} \underset{ω &Element; Ω}{Σ} s (τ, ω) - - - (2)

\hat{s} (t) = \sqrt{\underset{τ &Element; T_{i j} (t)}{Σ} \underset{ω &Element; Ω}{Σ} {(s (τ, ω) - \overset{&OverBar;}{s} (t))}^{2}} - - - (3)

通过找到信号的极点来提取最可能的K峰。

使用从成对分析提取的假设来构建成对证据，

φ_{i j} (x) &Proportional; Σ_{k = 1}^{K} c_{i j}^{k} \exp (\frac{- {(x - x_{i j}^{k})}^{2}}{2 σ^{2}}) + u - - - (4)

其中c是从相关性f_ij推导出的置信度。

然后，系统通过组合成对证据来对时间偏移的联合概率分布进行建模，得到

p (x_{1 : N}) &Proportional; \underset{i j}{Π} φ_{i j} (x_{j} - x_{i}) . - - - (5)

由于在解空间(即，p(x_1:N)＝p(x_1:N+t))中存在一个参数不确定，所以系统将一个节点固定为基准并且将其值设定为xl＝0，得到以下联合概率分布

p (x_{2 : N}) &Proportional; \underset{i > 1, j > 1}{Π} φ_{i j} (x_{j} - x_{i}) \underset{i > 1}{Π} φ_{i} (x_{i}), - - - (6)

这是在马尔可夫随机场模型中所见的常见形式。

然后通过loopy置信度传播来逼近式(6)中的x的边际，loopy置信度传播使用节点之间的消息的迭代序列以通过曲线图传播证据。在算法的迭代t≥1处，使用来自先前迭代的消息将从节点i至j的消息定义为

其中均一地或随机地定义t＝0处消息。

b_{i}^{t} (x_{i}) = φ_{i} (x_{i}) \underset{k &Element; N (i) \ j}{Π} m_{k i}^{t - 1} (x_{i}) . - - - (8)

迭代t处的置信度逼近边际，并且使用传播的消息来对其定义，

需要注意的是，式(7)是成对因素与部分置信度的卷积，这允许系统有效地使用傅里叶变换来计算消息更新。

在T次迭代之后，能够通过将置信度最大化来获得最终解X_i：

x_{i} = {argmax}_{x} b_{i}^{T} (x) . - - - (9)

由于不确保loopy置信度传播收敛于正确的边际，所以系统可尝试将所有可能的节点作为基准来获得N个假设解。系统保留使一致性分值最大化的最终解，

F (x_{1 : N}) = \underset{i}{Σ} \underset{j &Element; N (i)}{Σ} φ_{i j} (x_{j} - x_{i}) . - - - (10)

另选地，相关性分值能够直接用于测量假设解的总一致性：

F (x_{1 : N}) = \underset{i}{Σ} \underset{j &Element; N (i)}{Σ} f_{i j} (x_{j} - x_{i}) . - - - (11)

多视角几何的理论提供了数学工具，以从图像推导的点对应进行相机姿态和场景几何的重构。尽管已从多个相机视角进行了关于3D构造的工作，但是许多技术仅在已知相机的内部校准(例如，焦距、主点)的假设下起作用。然而，对于由用户生成的内容，系统无法假设已知内部校准信息。另外，与根据依赖于在EXIF头中编码的内联函数的非结构化的照片合集的基于3D视觉的重构方法不同，视频元数据常常不包含这一有用信息。因此，在一个实现方式中，系统使用存在于由用户生成的视频中的纯相机旋转来自动地提取内部校准。

对于音乐会或体育赛事，相机常常待在一个位置并且仅略微旋转以观察行动。由于这是一个目标使用情况，系统使用一种方法来为这种类型的视频运动提供相机焦距的精确初始估计。然后，系统使用一些选择算法来过滤出更好的或者正进行相机姿态提取和多视角重构的图像区域，然后使用已经推导出的焦距对这些图像区域进行姿态提取。

在相机仅经历旋转(以及可能可忽略的平移)的情况下，两个图像之间关联图像坐标的变换可通过3x3投影单应矩阵H来相关。

在不损失一般性的情况下，使第一相机与原点对齐；因此，相机矩阵被定义为

P₁＝K[I_3×3|0]，(12)

并且如果第二视角仅为第一视角的旋转R，则

P₂＝K[R|0].(13)

这里，内部相机参数被假设为零偏差，并且主点被假设为在相机的图像平面的中心，对大多数消费者相机情况如此：

K = [\begin{matrix} f_{x} & 0 & 0 \\ 0 & f_{y} & 0 \\ 0 & 0 & 1 \end{matrix}], - - - (14)

其中fx和fy分别为x和y上的焦距。然后，关联图像的单应矩阵是内部和旋转矩阵的函数：

H＝HRK^-1.(15)

由于R是满足I_3x3-RR^T的正交3x3旋转矩阵，利用式(15)，约束能够被重写为

D＝(K^-1HK)(K^-1HK)^T-I_3×3，(16)

这是仅K和恢复的单应矩阵H的函数。由于能够直接从图像匹配估计H，约束Tr(DD^T)＝0给出未知fx和fy中的非线性最小二乘问题。系统通过在fx和fy的空间中最小化Tr(DD^T)最小来求解fx和fy：从(fx,fy)的某一初始值开始，然后使用类似Levenberg-Marquardt的信任区域方法向前迭代地计算(Δfx,Δfy)，直至它收敛于可接受的最小值。

系统能够通过检查单应矩阵H并且选择剩余部分以估计相机内部参数，来自动地丢弃带有变焦或者相机的旋转不足的图像序列部分。

图像选择、成对匹配和光束平差

出于计算原因，系统可首先通过考虑特征的数量、各个帧的质量和时间运动的量仅从各个视频序列选择几个显著帧，来减少输入重构的帧的数量。一旦系统已为重构选择了图像，它就能够从各个图像提取SIFT特征并且使用这些特征来匹配成对的图像。在一个实施例中，系统可使用通过Lowe阈值的匹配来得到初始匹配集。为了去除不正确的匹配，系统可通过仅选择其比例和取向差异与大部分其它匹配的比例和取向差异相一致的匹配来进一步精炼该匹配。这能够通过将初始匹配集分装成横跨匹配的比例和取向差异的2D直方图来完成。系统选择包含最多数量的匹配的分装中的匹配作为最终精炼的匹配。

然后，系统可使用匹配对各对图像计算两视角模型，即基础矩阵和f内点。系统可使用上面计算的图像的焦距信息来计算这些两视角模型。一旦我们有了两视角模型，系统就能够迭代地将两视角模型加在一起并且进行光束平差，从而得到包含所有相机的最终3D模型。

对于静态3D地图，系统将相机的最终3D位置取为该视频序列的所有重构的位置上的中位数位置。能够使用重构的3D点云来推导基于3D地图的界面的3D模型，或者另选地，能够手动地将重构的3D相机姿态与该环境的艺术家创建的3D地图对准。

来自消费者相机的输入视频常常遭受质量问题。在利用视频流之前，系统可可选地在视频之间应用颜色校正，通过运动稳定来减少抖动，通过去噪来减少噪声伪影。剪辑之间的音频电平也可被归一化为公共电平。

系统能够使用能量最小化来识别何时切换视频。除了常见的质量和转换线索以外，我们的能项能够考虑相机的3D位置和视点。使用位置和视点，如果在一致方向上切换，则转换可更连续地进行。

在解决了优化之后，可创建组合的编辑视频。另选地，回放引擎接纳编辑点的列表，作为指示视频应该被切换的时间的对序列。这样，用户可在回放引擎使用该编辑列表动态地更新视点的同时观看导演剪辑版。用户还可在任何点从导演剪辑版切换以得到自由视点效果。

采用3D相机姿态和粗略逼近场景几何的益处有三重：1)视频的空间布置能够被呈现给用户以允许直观的交互式视点选择；2)中间的虚拟视点也可被呈现给用户；以及3)空间布置能够用于预测可能的下一视角。交互式多视角播放器在呈现指示时间线上的重要点的其它UI元素的同时利用了这些优点。中间的虚拟视角可能不具有如输入视角那样的保真度，但是有益于掩盖视频切换中所固有的缓冲和延迟。

UI元素

图6A和图6B是示出根据本公开的一些实现方式的交互式多视角视频回放界面的两个可能呈现的示例的示图。图6A中的3D交互式视角示出在重构的视频姿态上具有图标/微件的与事件对应的3D模板模型。这些图标还示出当前播放的相机以及在当前回放时间哪些视点可用(或者在范围内)。用户能够通过在地图上的期望的相机视点上点击来在空间上浏览视频场景。

由于并非所有视频均在相同的时间开始或结束，所以视频密度条能够随着正常的拖动条一起显示，以示出在给定时间有多少视频可用(参见图6B)。另选地，能够使用热门亮点条来指示事件的亮点。这种亮点条类似于可用于单个视频回放的亮点条。能够手动地管理该亮点条，或者该亮点条可使用来自社交媒体的线索或者接受来自登陆用户交互的反馈。在多视角的情况下，有用线索是在任何给定时刻可用的视频的数量和质量二者。另外，用户已经从不同视点重放一时刻的次数也能够用作驱动亮点条的密度的线索。

为了确保良好的交互式体验，界面可在用户请求时呈现视点之间的无缝转换。由于应切换请求重新缓冲而引起的回放中的突然的不连贯被最小化。

视频视点之间的即时切换或者时间搜寻利用了对所有视频数据的立即随机访问。确保这种随机访问将需要在回放之前预缓冲或者下载所有视频，这可能导致差的用户体验。解除对即时搜寻的约束，同时将所有视频流化将允许即时视点切换，但是由于带宽约束，这种流化不太可能实现。代替这些极端情况，理想的播放器仅下载将要观看的视频部分，但是作为折中必须预缓冲视频的一些区域，以便确保交互式切换。

对带宽和交互性之间的折中的一种解决方案是使用后台缓冲形式。当前选择的主视频在前台播放，并且为了尝试确保快速交互式切换，第二后台缓冲视频将在后台流化、缓冲和播放。后台缓冲器中的视频的流化能够监测用户行为——诸如悬停于虚拟视点上方——以预测将选择哪一视频。另选地，所有用户的历史能够用作先验以确定最可能的下一视点，或者能够对关键时间附近的所有视频执行一些预缓冲。

在已经识别将要后台缓冲的视频之后，能够在后台缓冲和播放该视频。图7示出了这种事件的时间线，其中tp指示做出预测的时间，t_a指示用户实际选择视点的时间，以及t_s是系统已经完成新视频中的切换的时间。在t_p时刻，后台缓冲视频播放器必须取得足够的视频数据以开始回放(缓冲时间)。还存在数据完全可用之后启动播放器的微小延迟。如果在启动已经完成之后发生用户选择时间t_a，则后台缓冲的视频可被简单地换至前台。

图7示出预测和缓冲时间线的两个示例。在时间tp处，系统预测用户不久将切换到视频2，因此视频2在后台被缓冲并开始回放。然后用户在时间ta处实际请求切换，随后我们使用允许缓冲/回放的长度ts-ta的延迟动画以做好准备。当预测正确(左边)时，此延迟动画可较短。如果视频被缓冲(右边)，仅需要足够覆盖回放启动时间的延迟。

然而，为了在视频预测不正确或者视频数据没有完成缓冲时确保一致的体验，系统使用大于启动时间的动画延迟ts-ta。该动画延迟应该至少覆盖直至后台缓冲的视频准备好回放的时间。这样，用户仍能够观看当前的主视频，直至后台缓冲的副视角可用。另外，在后台缓冲视频已经在后台播放的情况下，在后台缓冲的视频被换至前台之前，动画延迟允许回放时间的最终同步。

能够利用当前视频流化技术来实现以上策略。诸如MPEG-DASH的视频流化的新标准也允许如果带宽可用的话则进行无缝即时的质量改变()。使用MPEG-DASH，以上缓冲方案可在后台缓冲器中使用低质量视频，从而确保较低带宽，并且因此导致后台缓冲器的更快速的缓冲时间。在视频被带至前台之后，可根据可用带宽自动地改进质量。类似地，可使用可伸缩视频编码(SVC)方法来推导基于效用的策略，以便如果带宽可用的话则发送来自后台视角的数据。例如，可定义这样的策略：尝试并优选拥有来自所有视点的一些低质量视频，从而允许快速切换以及重用在3D地图视角的缩略图上显示的图像数据。

转换动画

上述缓冲策略依赖于用户选择新视频之后的微小延迟覆盖准备后台视频以进行回放的延时。为了使回放转换看起来反应更灵敏，可在该转换时间期间在视频上叠加动画或效果。

一个这样的效果将是模拟从用户交互的元素到当前主视频的视频选择的缩略图的摇摄、扫描和淡出。如果可用，从系统的计算机视觉组件中恢复的3D信息能够用于模拟自由视点切换。这样的转换还给予用户更好的环境空间感，因为渲染看起来像场景的3D穿梭。这样的转变能够仅使用粗略逼近场景几何以及将当前播放的视频纹理以投影式的纹理映射至场景上来渲染。在一个实现方式中，这可被称作自由视点渲染。能够使用单个输入图像和粗略场景几何来合成附近区域上的视角。上下示图示出了正被投影到场景上的纹理。

另外的转换效果还能够包括慢动作或者重放模式，其中在视频切换时时间被倒回以使得用户可从不同的视点观看同一事件。倒回时间点能够使用来自视频密度条的信息以自动地识别动态倒回点。

上面的描述呈现了根据用户生成的内容实现多视角视频回放的完整系统和方法。该系统聚焦于提取、利用和呈现所有可用的信息，包括视频开始时间和3D相机位置。通过这样做，系统实现了直观的多视角浏览体验，其中通过考虑可用视频质量线索、3D姿态信息和用户交互历史将用户视觉上引导至时间和空间中的兴趣点。这些相同的线索还被用于回放期间的预测性后台缓冲策略，这在减小互联网协议传输中的带宽约束的同时确保了交互性。

图8示出了以计算机系统800的示例性形式的机器的示意图，在所述机器内可执行用于使得所述机器执行本文所讨论的任一个或多个方法的指令集合。在另选实现方式中，所述机器可连接(例如，联网)至局域网(LAN)、内联网、外联网或互联网中的其它机器。所述机器可在客户端-服务器网络环境中以服务器或者客户端机器的身份操作，或者在对等(或分布式)网络环境中作为对等机器操作。所述机器可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、网络设备、服务器、网络路由器、交换机或网桥、或者能够执行指定将由机器采取的动作的(顺序的或以其它方式的)指令集合的任何机器。另外，尽管仅示出单个机器，术语“机器”也将被认为包括单独地或联合地执行指令集合(或多个集合)以执行本文所讨论的任一个或多个方法的任何机器集。

示例性计算机系统800包括经由总线830彼此通信的处理装置802、主存储器804(例如，只读存储器(ROM)、闪存、动态随机存取存储器(DRAM)(例如，同步DRAM(SDRAM)或RambusDRAM(RDRAM)等)、静态存储器806(例如，闪存、静态随机存取存储器(SRAM)等)和数据存储装置818。经本文所述的各种总线提供的任何信号可与其它信号时间复用并且经一个或多个公共总线来提供。另外，电路组件或块之间的互连可被示出为总线或单信号线。另选地，各个总线可以是一条或多条单信号线，并且另选地，各个单信号线可以是总线。

处理装置802表示一个或多个通用处理装置，诸如微处理器、中央处理单元等。更具体地讲，处理装置可以是复杂指令集计算机(CISC)微处理器、精简指令集计算机(RISC)微处理器、超长指令字(VLIW)微处理器、或者实现其它指令集的处理器、或者实现指令集的组合的处理器。处理装置802还可以是一个或多个专用处理装置，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。处理装置802被配置为执行用于执行本文所讨论的操作和步骤的处理逻辑826。

计算机系统800还可包括网络接口装置808。计算机系统800还可包括视频显示单元910(例如，液晶显示器(LCD)或者阴极射线管(CRT))、字母数字输入装置812(例如，键盘)、光标控制装置814(例如，鼠标)和信号生成装置816(例如，扬声器)。

数据存储装置818可包括机器可读存储介质828，其上存储了具体实现本文所述的功能的任一个或多个方法的一个或多个指令822的集合(例如，软件)。指令822还可在其被计算机系统800执行期间完整地或者至少部分地驻留于主存储器804内和/或处理装置802内；主存储器804和处理装置802也构成机器可读存储介质。指令822还可经由网络接口装置808经网络820来发送或接收。

机器可读存储介质828还可用于存储，执行如本文所述的多视角音频和视频交互式回放方法的指令。尽管在示例性实现方式中机器可读存储介质828被示出为单个介质，术语“机器可读存储介质”应该被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库、和/或关联的高速缓存和服务器)。机器可读介质包括用于以可由机器(例如，计算机)读取的形式(例如，软件、处理应用)存储信息的任何机制。机器可读介质可包括但不限于磁存储介质(例如，软磁碟)；光学存储介质(例如，CD-ROM)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存；或者适合于存储电子指令的另一类型的介质。

前面的描述阐述了众多具体细节，诸如具体系统、组件、方法等的示例，以便提供对本公开的多个实现方式的良好理解。然而，对于本领域技术人员而言将显而易见的是，本公开的至少一些实现方式可在没有这些具体细节的情况下实践。在其它情况下，熟知的组件或方法没有被详细描述或者被以简单框图而呈现，以避免不必要地模糊本公开。因此，所阐述的具体细节仅是示例性的。特定实现方式可与这些示例性细节不同，但仍被认为在本公开的范围内。

在本文所讨论的系统收集关于用户的个人信息或者可能利用个人信息的情况下，可向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行为或活动、职业、用户的偏好或者用户的当前位置的信息)，或者控制是否和/或如何从可能与用户更相关的媒体服务器接收内容。另外，某些数据可在被存储或使用之前按照一种或多种方式来处理，以使得个人可识别信息被去除。例如，用户的身份可被处理以使得没有个人可识别信息可被确定为用户，或者在获得位置信息的情况下用户的地理位置可被一般化(例如至城市、邮政编码或者州级别)，以使得无法确定用户的特定位置。因此，用户可控制关于用户的信息如何被收集以及如何被web服务器或媒体服务器使用。

贯穿本说明书提及“一个实现方式”或“实现方式”意为结合该实现方式描述的特定特征、结构或特性被包括在至少一个实现方式中。因此，贯穿本说明书中出现在各种地方的短语“在一个实现方式中”或“在实现方式中”未必全部指同一实现方式。另外，术语“或”旨在意为包括性的“或”，而非排他性的“或”。

尽管按照特定顺序示出和描述了本文中的方法的操作，但各个方法的操作的顺序可被更改，以使得可按照相反的顺序执行某些操作，或者以使得可至少部分地与其它操作同时执行某些操作。在另一实现方式中，不同操作的指令或子操作可为间歇和/或交替方式。

Claims

1.一种方法，包括：

由处理装置识别与真实世界事件相关联的多个媒体项，所述多个媒体项中的每一个包括视频部分和音频部分；

根据公共参考时间线来同步所述多个媒体项中的每一个的所述音频部分；

确定与所述多个媒体项中的每一个相关联的相对地理位置；以及

至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。

2.根据权利要求1所述的方法，进一步包括：

通过基于所同步的音频部分组合所述多个媒体项来生成与所述真实世界事件相关联的单个编辑的媒体项。

3.根据权利要求1所述的方法，其中，识别所述多个媒体项包括：确定具有识别所述真实世界事件的元数据的媒体项。

4.根据权利要求1所述的方法，其中，同步所述多个媒体项中的每一个的所述音频部分包括：对所述多个媒体项中的每一个确定时间偏移，所述时间偏移增加每个音频部分的基于频率的音频谱图的相关性，其中，所述时间偏移表示所述公共参考时间线上的位置。

5.根据权利要求1所述的方法，其中，确定与所述多个媒体项中的每一个相关联的所述相对地理位置包括：基于所述多个媒体项中的每一个中可见的多个点，确定在所述真实世界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。

6.根据权利要求1所述的方法，其中，在所述交互式多视角播放器界面中呈现所述多个媒体项包括：

显示表示所述多个媒体项中的每一个的图标，其中，每个图标被显示在基于相对应的相对地理位置的位置中；

接收对表示所述多个媒体项中的第一媒体项的图标的用户选择并且开始回放所述第一媒体项；以及

在所述第一媒体项的回放期间与所述公共参考时间线上的第一点相对应的时间处接收对表示所述多个媒体项中的第二媒体项的图标的用户选择，并且在所述第二媒体项中与所述公共参考时间线上的所述第一点相对应的时间处开始回放所述第二媒体项。

7.根据权利要求6所述的方法，进一步包括：

预测所述用户将选择的后续媒体项；以及

在用户选择所述后续媒体项之前缓冲所述后续媒体项。

8.一种存储指令的非暂时性机器可读存储介质，所述指令在被执行时使得处理装置执行操作，所述操作包括：

由所述处理装置识别与真实世界事件相关联的多个媒体项，所述多个媒体项中的每一个包括视频部分和音频部分；

9.根据权利要求8所述的非暂时性机器可读存储介质，其中，所述操作进一步包括：

10.根据权利要求8所述的非暂时性机器可读存储介质，其中，识别所述多个媒体项包括：确定具有识别所述真实世界事件的元数据的媒体项。

11.根据权利要求8所述的非暂时性机器可读存储介质，其中，同步所述多个媒体项中的每一个的所述音频部分包括：对所述多个媒体项中的每一个确定时间偏移，所述时间偏移增加每个音频部分的基于频率的音频谱图的相关性，其中，所述时间偏移表示所述公共参考时间线上的位置。

12.根据权利要求8所述的非暂时性机器可读存储介质，其中，确定与所述多个媒体项中的每一个相关联的所述相对地理位置包括：基于所述多个媒体项中的每一个中可见的多个点，确定在所述真实世界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。

13.根据权利要求8所述的非暂时性机器可读存储介质，其中，在所述交互式多视角播放器界面中呈现所述多个媒体项包括：

14.根据权利要求13所述的非暂时性机器可读存储介质，其中，所述操作进一步包括：

预测所述用户将选择的后续媒体项；以及

在用户选择所述后续媒体项之前缓冲所述后续媒体项。

15.一种服务器计算机系统，包括：

处理装置；

存储器，所述存储器耦合至所述处理装置；以及

交互式多视角模块，所述交互式多视角模块能由所述处理装置从所述存储器执行以：

识别与真实世界事件相关联的多个媒体项，所述多个媒体项中的每一个包括视频部分和音频部分；

16.根据权利要求15所述的服务器计算机系统，其中，所述交互式多视角模块进一步：

17.根据权利要求15所述的服务器计算机系统，其中，为了识别所述多个媒体项，所述交互式多视角模块确定具有识别所述真实世界事件的元数据的媒体项。

18.根据权利要求15所述的服务器计算机系统，其中，为了同步所述多个媒体项中的每一个的所述音频部分，所述交互式多视角模块对所述多个媒体项中的每一个确定时间偏移，所述时间偏移增加每个音频部分的基于频率的音频谱图的相关性，其中，所述时间偏移表示所述公共参考时间线上的位置。

19.根据权利要求15所述的服务器计算机系统，其中，为了确定与所述多个媒体项中的每一个相关联的所述相对地理位置，所述交互式多视角模块基于所述多个媒体项中的每一个中可见的多个点，确定在所述真实世界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。

20.根据权利要求15所述的服务器计算机系统，其中，为了在所述交互式多视角播放器界面中呈现所述多个媒体项，所述交互式多视角模块：