CN106170096B

CN106170096B - 基于云视频共享的多角度视频编辑

Info

Publication number: CN106170096B
Application number: CN201610326836.XA
Authority: CN
Inventors: 韩铮; 徐杰
Original assignee: Zepp Labs Inc
Current assignee: Beijing Shunyuan Kaihua Technology Co Ltd
Priority date: 2015-05-18
Filing date: 2016-05-17
Publication date: 2020-03-06
Anticipated expiration: 2036-05-17
Also published as: CN106170096A; US20160345035A1; JP6712282B2; JP2018521546A; US9554160B2; EP3298795A4; WO2016186798A1; EP3298795A1

Abstract

公开了一种用于由从不同角度捕获的视频来组成多角度视频的解决方案。从目标用户接收用以组成多角度视频的请求，请求使用由目标用户捕获的视频和由在目标用户附近的其他用户捕获的视频来组成多角度视频。基于与所捕获的视频相关联的元数据(例如，视频的地理位置和时间戳)来标识由附近用户捕获的多个视频，并向目标用户进行呈现。接收包括来自由附近用户捕获的多个视频的两个或更多个视频的视频序列，并且基于所接收的视频序列来组成多角度视频。

Description

基于云视频共享的多角度视频编辑

技术领域

本发明总体涉及视频共享，且具体地涉及使用云视频共享的多角度视频编辑。

背景技术

随着诸如智能手机和平板电脑之类的移动计算设备的进步，越来越多的人能够记录各种类型的事件视频。例如，出席体育赛事的人能够使用他们的移动计算设备记录体育赛事的短片断。用户可以用移动应用编辑他们自己的视频。例如，多人可能从不同的角度记录了事件的特定时刻，且一个用户可能想使用两个或更多那些视频来生成单个视频，该视频从由第一个移动设备的照相机记录的一个角度转移到由第二个移动设备的照相机记录的第二个角度。然而，由个体的用户使用他们的移动设备从不同的角度捕获的视频来编辑和生成多角度视频，是在技术上有挑战性且昂贵的。

另外，用户可能想要使用用于记录事件的一个片断的移动计算设备执行视频编辑。移动计算设备具有有限的计算能力，这使得多角度视频编辑更有挑战性。用于多角度视频编辑的当前解决方案，例如，手动选择并标记从不同的角度捕获的视频的不同的部分，在不劣化用户体验的情况下可能不适合于此类移动计算设备。

发明内容

本发明的实施例提供了一种使用从不同角度捕获的视频来组成多角度视频的解决方案。视频共享服务存储与由多用户捕获的多视频相关联的信息以用于用户来组成多角度视频。除此之外，客户端设备的视频获取引擎捕获视频并与视频共享服务同步，以允许当在组成的多角度视频中的角度之间切换时的平滑转译。同步可以为基于时间的，且基于时间的同步可以基于与多个视频相关联的音频特征来进一步增强。

公开了一种用于在客户端设备处组成多角度视频的计算机实施的方法。该方法的实施例包括：由与目标用户相关联的客户端设备捕获将被用在多角度视频中的视频。该多角度视频包括所捕获的视频的至少一部分和由在目标用户附近的其他用户捕获的其他视频的部分。确定与所捕获的视频相关联的元数据。向计算机服务器发送所捕获的视频和元数据。

另一个方面提供了一种用于在计算机服务器处组成多角度视频的计算机实施的方法。从目标用户接收用以组成多角度视频的请求。标识由在目标用户附近的其他用户捕获的视频。向目标用户呈现所标识的视频。接收对由目标用户和附近用户捕获的视频的部分的选择，并且基于视频的所选择的部分来组成多角度视频。

在本说明书中描述的特征和优点未全部包括在内，而且，特别地，许多附加的特征和优点对于一位本领域的普通技术人员参看附图、说明书和权利要求书将显而易见。此外，应当注意到在本说明书中所使用的语言的选择主要为了易读性和指导性的目的，但可能不是为描绘或限制本发明的主旨而被选择。

附图说明

图1是根据一个实施例的用于组成多角度视频的计算环境的框图。

图2是根据一个实施例的图示了用作视频共享服务和/或客户端设备的计算机的一个示例的框图。

图3是根据一个实施例的视频获取引擎的框图。

图4是根据一个实施例的视频共享引擎的框图。

图5A是根据一个实施例的多个用户捕获体育赛事的片断的顶视图。

图5B是根据一个实施例的多个用户捕获多个体育赛事片断的顶视图。

图5C是根据一个实施例的用户跨捕获体育赛事的片断的多个其他用户来移动的图。

图6是根据一个实施例的图示了来自附近用户的可用视频和用于生成多角度视频的用户的视频序列选择的图。

图7是根据一个实施例的用于上传视频片断以用于多角度视频组成的过程的流程图。

图8是根据一个实施例的用于在视频共享服务处用从多个角度捕获的视频片断来组成多角度视频过程的流程图。

图9是根据一个实施例的用于在客户端设备处用从多个角度捕获的视频片断来组成多角度视频的过程的流程图。

图10是根据一个实施例的用于基于与视频相关联的声音模式而使从多个角度捕获的两个视频同步的过程的流程图。

图11是根据一个实施例的用于用从多个角度捕获的视频片段来组成多角度视频的示例性的用户界面。

附图仅为说明的目的，描绘了本发明各种实施例。从以下论述中，一位本领域的技术人员将容易认识到本文说明的结构和方法备选实施例可以在不脱离本文描述的本发明的发明原理情况下被采用。

具体实施方式

系统概述

提供一种用以组成(compose)由移动计算设备捕获并存储在云计算环境中的多角度视频的解决方案。多用户使用移动计算设备照相机从不同的角度捕获特定事件的视频。由每个移动计算设备捕获的视频的时间戳与视频共享服务器的时间进行同步。除此之外，诸如地理位置(例如，纬度、经度、高度和定向)之类的其他信息可以由移动计算设备来确定并与捕获的视频相关联。捕获的视频被发送到视频共享服务器，且之后由用户访问以组成多角度视频。

图1为根据一个实施例的用于组成多角度视频的计算环境100的框图。图1示出的实施例包括通过网络120互相连接的多客户端设备110(例如，110A、110B和110C)和视频共享服务130。计算环境100的实施例可以具有许多连接到移动网络120的客户端设备110。类似地，由图1的各种实体执行的功能在不同的实施例中可能不同。

客户端设备110为用户所使用的，执行诸如记录数字内容、消费数字内容、执行软件应用、在移动网络120上浏览由网络服务器主控的网站、下载文件等等的功能的电子设备。例如，客户端设备110可以为媒体流媒体设备、智能手机或平板电脑、笔记本电脑或台式计算机。客户端设备110包括显示设备和/或与显示设备对接，在其上用户可以查看视频和其他内容。另外，客户端设备110提供诸如物理和/或屏幕上按钮之类的用户接口(UI)，用其用户可以与客户端设备110互动以执行功能，诸如查看、选择和消费诸如运动指导视频之类的数字内容，。

在一个实施例中，客户端设备110具有用于捕获视频并向视频共享服务130上传视频的视频获取引擎115。在另一个实施例中，除视频获取引擎115以外，客户端设备110具有视频组成模块(图1中未示出)用于组成多角度视频。下文将参照图3对视频获取引擎115进一步地描述。为简单起见，将参照图4中对应的视频共享服务130的视频共享引擎138的视频组成模块430，对视频组成模块进一步地描述。

视频共享服务130包括：视频数据库134用于存储由客户端设备110存储的视频，元数据数据库132用于存储与存储在视频数据库134中的视频相关联的元数据，同步模块136用于使由不同的客户端设备110捕获的视频的定时同步，以及用于使用存储在视频数据库134中的视频组成多角度视频的视频共享引擎138。视频共享引擎134下文将参照图4进一步地描述。

在本公开中，“视频内容”、“数字内容”或“数字媒体内容”一般指任何机器可读的和机器可存储的作品。数字内容可以包括，例如，视频、音频或视频和音频的组合。备选地，数字内容可以为诸如JPEG或GIF文件或文本文件之类的静止图像。为实施例的简化和描述的目的，数字内容将被称作“视频”、“视频文件”或“视频片断”，但此术语并非意在对可以被分析的数字内容的类型进行限制，。

移动网络120使客户端设备110和视频共享服务130当中的通信成为可能。在一个实施例中，移动网络120包括互联网并使用标准通信技术和/或协议，例如，4G LTE移动网络。在另一个实施例中，实体可以使用定制和/或专用数据通信技术。

计算系统结构

图1所示的实体使用一台或多台计算机而被实施。图2为根据一个实施例的用作视频共享服务130和/或客户端设备110的计算机200的高阶框图。图示的为至少一个被耦合到芯片组204的处理器202。被耦合到芯片组204的还有存储器206，存储设备208、键盘210、图形适配器212、指向设备214和网络适配器216。客户端设备110的显示器218被耦合到图形适配器212。在一个实施例中，芯片组204的功能性由存储器控制器集线器(hub)220及I/O控制器集线器222所提供。在另一个实施例中，存储器206被直接耦合到处理器202而不是芯片组204。

存储设备208为诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备之类的任何非瞬态计算机可读存储介质。存储器206保存由处理器202所使用的指令和数据。指向设备214可以为鼠标、轨迹球或其他类型的指向设备，且与键盘210组合使用将数据输入到计算机系统200中。图形适配器212在客户端设备110的显示器218上显示图像和其他信息。移动网络适配器216将计算机系统200耦合到移动网络120。

正如本领域所知的，计算机200可以具有与图2中示出的那些不同的和/或其他部件。另外，计算机200可以缺少某些图示的部件。例如，用作视频共享服务130的计算机可以由连在一起的多个刀片服务器组成为一个或多个分布式系统并缺少诸如键盘和显示器之类的部件。而且，存储设备208可以为本地的和/或远离计算机200(如在存储区域网(SAN)内实施)。

正如本领域所知的，计算机200适合于执行计算机程序模块以用于提供本文描述的功能性。如本文所用的，术语“模块”指的是被用于提供指定功能性的计算机程序逻辑。因而，模块可以被实施在硬件、固件和/或软件中。在一个实施例中，程序模块被存储在存储设备208上，载入到存储器206中，并由处理器202执行。

用于多角度视频组成的视频获取

多用户可以使用移动计算设备的照相机从不同的角度捕获同一场体育赛事的视频。图3为根据一个实施例的客户端设备110的视频获取引擎115的框图。视频获取引擎115捕获视频，例如现场足球比赛，并向视频共享服务130上传视频。在一个实施例中，视频获取引擎115具有视频获取模块310、同步模块320、地理位置模块330、关键帧提取模块340、元数据上传模块350和视频上传模块360。视频获取引擎115的其他实施例可以具有不同的和/或附加的计算机模块，例如呈现由视频共享服务生成的多角度视频的呈现模块。类似地，由图3的各种实体执行的功能在不同的实施例中可以不同。

视频获取模块310，例如智能手机内嵌的数字照相机，捕获诸如体育赛事之类事件的视频。例如视频获取模块310捕获足球赛的视频或篮球赛的视频。视频获取模块115能够以任何格式和/或分辨率捕获视频。在一些实施例中，视频获取模块115以由用户使用客户端设备110规定的格式和分辨率来捕获视频。捕获的视频包括多个视频帧，每个帧具有相关联的时间戳，其表示相对于捕获的视频的其他视频帧的定时信息。

同步模块320使由视频获取模块310捕获的视频的时间戳与由视频共享服务130的同步模块136的时钟同步。在一些实施例中，客户端设备110的同步模块320和视频共享服务130的同步模块136使用诸如克里斯蒂安(Cristian)的算法或网络时间协议(NTP)之类的时钟同步算法。例如客户端设备110的同步模块320可以向视频共享服务130的同步模块136发送请求。视频共享服务130的同步模块136发送包含同步模块136的时钟时间的响应。客户端设备110的同步模块320还可以确定数据包从客户端设备110到视频共享服务130来回的往返时间(RTT)。视频同步模块320然后可以将捕获的视频的当前时间确定为被包括在来自视频共享服务130的同步模块136的响应中的时间加上往返时间的一半。

当视频获取模块310捕获视频时，地理位置模块330确定客户端设备110的位置，并用确定的位置为由视频获取模块310捕获的视频加标签。例如，地理位置模块330使用全球定位系统(GPS)接收器确定客户端设备110的纬度和经度。地理位置模块330可以在本地资源库中存储对应于与捕获的视频相关联的坐标值(例如纬度和经度)元数据或者将元数据提供到元数据上传模块350以用于进一步处理。地理位置模块330还可以确定其他诸如高度和定向之类的地理位置参数。

关键帧提取模块340从由视频获取模块310捕获的视频提取关键帧。关键帧为被选择为指示视频的音频/视频信号的视频帧做出变化的开头或结束。例如，关键帧被设置为指示在该处体育视频的音频信号开始减弱到阈值水平的点。在一些实施例中，关键帧提取模块340针对每设定数目的帧提取帧(例如，提取每30帧的第一帧)，或在设定的时间段提取帧(例如，每30秒提取一帧)。

除此之外，关键帧提取模块340可以生成针对提取的关键帧的低分辨率图像，其将被上传到视频共享服务130。上传针对提取的关键帧的低分辨率图像而不是原始分辨率的关键帧，降低了对移动计算设备的带宽要求。例如，低分辨率图像可以被视频共享服务130用作由视频获取模块310捕获的视频的关键帧的缩略图。在实施例中，关键帧提取模块340通过压缩提取的关键帧来生成针对提取的关键帧的低分辨率图像。任何对于那些本领域一般技术人员熟知的视频压缩方案可以由关键帧提取模块340用于压缩提取的关键帧。

元数据上传模块350向视频共享服务130上传与由视频捕获模块310捕获的视频相关联的元数据。与由视频捕获模块310捕获的视频相关联的元数据的示例包括视频的地理位置信息、视频的时间信息、提取的关键帧和对应的关键帧的低分辨率图像的标识。例如，元数据上传模块350上传由地理位置模块330确定的地理位置信息和由同步模块320确定的时间信息。元数据上传模块还可以上传关键帧或与由关键帧提取模块340提取的关键帧对应的低分辨率图像的标识。

在一些实施例中，元数据上传模块350在视频获取模块310已捕获事件的视频片断后不久就上传元数据。例如，元数据上传模块350可以在视频获取模块310完成捕获视频片断后就立即上传元数据。

在一些实施例中，元数据上传模块350可以在视频获取模块310正在捕获视频片断时上传元数据。例如，元数据上传模块350甚至可以在视频获取模块310完成捕获视频片断之前，就向视频共享服务130上传时间信息、地理位置信息和/或关键帧的标识。

视频上传模块360向视频共享服务130上传由视频获取模块310捕获的视频片断。在一个实施例中，视频上传模块360上传与由关键帧提取模块340提取的关键帧对应的低分辨率图像。在一些实施例中，视频上传模块360可以在上传捕获的视频之前等待直至客户端设备110有快速互联网连接。例如，视频上传模块360可以等待直至客户端设备经由无线局域网络(WLAN)被连接。在其他实施例中，视频上传模块响应于从客户端设备110的用户接收到指令而上传由视频获取模块捕获的视频。

多角度视频组成和共享

返回参阅图1，视频共享服务130包括元数据数据库132、视频数据库134、同步模块136和视频共享引擎138。视频数据库134存储由客户端设备110捕获的视频。元数据数据库132存储与存储在视频数据库134中的视频相关联的元数据。在一个实施例中，从提供相关联视频的客户端设备110接收被存储在元数据数据库132中的元数据。视频共享服务130的同步模块136与客户端设备110的视频获取引擎115的同步模块320进行通信，以使由客户端设备110捕获的视频的定时同步。视频共享引擎138允许用户使用存储在视频数据库134中的视频来组成多角度视频。

同步模块136使由客户端设备110捕获的并向视频共享服务130上传的视频的定时同步。每个客户端设备110可以具有不同的内置时间且由客户端设备110捕获的视频具有客户端设备110的内置时间作为其时间戳。当使用以多客户端设备记录的片断组成多角度视频时，如果与不同的视频片断相关联的定时不同步，则组成的视频可能时间上不连续，例如，对观看人对于有抖动的外观。例如，用户可以使用来自第一个客户端设备的片断和来自第二个客户端设备的片断来组成视频，第一客户端设备的内置时间和第二客户端设备的内置时间相差一秒。当在由每个客户端设备记录的片断之间进行切换时，由于第一客户端设备和第二客户端设备之间的内置时间的不同，组成的视频可以有一秒的时间间隙。

在一个实施例中，同步模块136使与每个由客户端设备110捕获的视频相关联的内置时间与同步模块136的系统时钟同步。例如，在从客户端设备110接收到时钟同步请求之后，同步模块136发送包含同步模块136的时钟时间的响应。客户端设备110的视频同步模块320将视频的当前时间设置为被包含在来自同步模块136响应中的时间，当前时间与将由客户端设备110上传到视频共享服务130关键帧的低分辨率图像相关联。

在某种状况下，同步模块136可能不能够正确地使时间与每一个客户端设备110同步。例如，客户端设备110可能处在网络忙碌的状态下(例如，数千人被同时连接到一个网络的音乐会中)用于客户端设备110和视频共享服务130之间的发送和接收数据延时较大。当视频共享服务130和客户端设备110之间的基于时间的同步未成功时，同步模块136可以使用多个视频的音频特征使视频同步。

在一些实施例中，同步模块136确定基于时间的同步是否成功或者视频共享服务130和客户端设备110之间的基于时间的同步不准确的可能性是否高于阈值。例如，同步模块136可以确定达到多个客户端设备的延时(例如，通过确定数据包在视频共享服务130和客户端设备110之间的往返时间(RTT))。要确定针对客户端设备110的RTT，视频共享服务130可以向到客户端设备110发送请求并测量从客户端设备110接收到确认需要的时间。然后同步模块136基于确定的延时，确定时间同步不准确的可能性高。例如，如果基于RTT的针对不同的客户端设备110的延时之间的方差大于延时阈值，则同步模块136确定时间同步不准确的可能性高。

为改善使由多者捕获的多个视频同步的准确度，同步模块136选择与多个视频中的一视频相关联的音频签名(也被称作“声音模式”)，并确定所选择的声音模式是否在上述视频中的其他视频中出现。基于声音模式确定，同步模块136确定是否调整与每个视频相关联的定时。

图10为用于基于与视频相关联的声音模式而使从多个角度捕获的多个视频中的第一视频和第二视频同步的过程的流程图。图10图示的示例仅示出在两个视频之间的同步；类似的步骤可以被应用于从多个角度捕获的更多视频。我们注意到如果第一视频和第二视频同时地被附近用户记录，则第一视频和第二视频可以包含有类似的音频签名的片断。例如，如果第一视频和第二视频在音乐会期间被记录，则两个视频可能都包括歌手在特定定时时段演唱具体歌曲或歌曲部分的音频签名。类似地，如果视频在足球赛期间被记录，则两个视频可能都包括人群庆祝进球或者球击中门柱的音频签名。

为使第一和第二视频同步，同步模块136选择与第一视频相关联的声音模式作为参考音频签名并确定1010在第一视频的多个搜索窗口中的音频信号功率。同步模块136选择1020具有大于声音功率阈值的功率及大于持续时间阈值(例如2秒)的持续时间的搜索窗口。例如，同步模块136可以选择第一视频的音频信号的在至少2秒上具有最大功率的搜索窗口。所选择的搜索窗口的声音功率呈现第一视频的参考音频签名。

同步模块136在第二视频中搜索1030所选择的窗口的音频签名。为了搜索音频签名，同步模块136在所选择的窗口的频谱中分析第二视频的音频信号，并在第二视频中搜索具有与第一视频的音频签名相关联的频谱类似的频谱的窗口。如果在第二视频中找到了1040该音频签名，则同步模块136计算有第一视频音频签名的视频分段的RTT时间戳和有第二视频音频签名的视频分段的RTT时间戳之间的方差。基于计算出的时间戳方差，同步模块136确定是否调整第二视频的定时。

在一个实施例中，同步模块136将计算出的时间戳方差与方差阈值相比较。响应于方差小于方差阈值，所述同步调整1050第二视频的定时；否则，不执行定时调整。例如，基于时间戳方差和方差阈值的比较，第二视频的定时被偏移。如果未在第二视频中找到音频签名，则弃用1060第二视频。如果存在将被同步的多于两个视频，则同步模块136对附加的视频重复相同的步骤1030-1060。在一些实施例中，如果在多个位置中找到该音频签名(例如，由于被包括在第二视频中的声音中的回声)，则使用包括音频签名的第一窗口来使第一视频和第二视频同步。

视频共享引擎138允许用户使用被存储在视频数据库134中的视频来组成多角度视频。图4图示了根据一个实施例的视频共享引擎138的框图。视频共享引擎138包括附近用户标识模块410、视频呈现模块420和视频组成模块430。

多用户可以使用移动计算设备的照相机从不同角度捕获体育赛事的视频，且一个用户可能想要使用由其他用户从不同角度捕获的视频片断来组成视频。对于由一个用户记录的特定视频，附近用户标识模块410标识由处于记录特定视频的该用户附近的其他用户捕获的其他视频。为简化视频共享引擎138的实施例的描述，由此处起，附近用户标识模块410为其标识其他附近用户的该用户被称作“目标用户”。在一个实施例中，附近用户标识模块410使用元数据(例如，捕获的视频的地理位置信息)来标识在目标用户附近的其他用户。

图5A图示了多个用户捕获体育赛事片断的顶视图。在图5A的示例中，六个用户U1、U2、U3、U4、U5和U6正在捕获足球比赛的视频片断。特别地，用户U1、U2、U3、U4和U5正在拍摄带足球的球员510A的视频片断，而用户U6正在拍摄球员510B的视频片断。用户U1为可能想要使用由用户U1、U3和U4捕获的视频片断组成视频的目标用户。附近用户标识模块410使用被包括在元数据数据库132中的信息标识出用户U2到U6曾位于目标用户UI的附近。例如，附近用户标识模块410使用地理位置信息(例如，与由用户U2和U6捕获的视频相关联的纬度和经度)，并将该地理位置信息与由用户U1记录的视频相关联的地理位置信息相比较。响应于由用户U2到U6捕获的视频与由用户U1记录的视频具有相似的纬度和经度，附近用户标识模块410确定用户U2到U6曾在用户U1附近。

为了增强基于对由用户U1到U6捕获的视频当中的地理位置信息进行比较的确定，附近用户标识模块410可以进一步比较与由用户U1到U6捕获的视频相关联的定时信息。由用户U2到U6在与由用户U1捕获的视频在相同时间间隔捕获的视频增加了用户U2到U6曾在用户U1附近的概率。

在另一个实施例中，如图5B图示的，附近用户标识模块410选择处在距目标用户U1测量有一距离(R)的预定区域内用户。例如，如果用户U1正在使用附近的其他用户捕获的视频组成多角度视频，则附近用户标识模块410标识在具有半径R并以用户U1的位置为中心的圆520A内部的用户。在图5B的示例中，用户U2、U3、U4和U5被选择因为他们在以用户U1为中心的圆520A之内的位置，而用户U6和U7没有被选择因为他们在圆520A的外部。

在一些实施例中，附近用户标识模块410将照相机正指向的角度考虑在内来标识附近用户。例如，用户基于他们的地理位置而可能靠近目标用户，但用户所使用的照相机正指向与目标用户U1所指的不同位置。附近用户标识模块410标识这些用户，其视频不被选择且不被目标用户U1用于组成他/她的多角度视频。在图5B的示例中，用户U2、U3、U4和U5基于他们的地理位置二在目标用户U1的附近，例如，用户U2到U5全都在以足球场530A的中间部分为中心的同一圆520B内。然而，用户U4和U5的照相机正指向与目标用户U1的照相机所指的方向不同的足球场。附近用户标识模块410选择用户U3、U4和U5作为在目标用户U1附近的用户，而不选择用户U4和U5。

在其他实施例中，附近用户标识模块410可以标识在目标用户U1的视野中的运动场或建筑并使用标识的场地来选择在目标用户U1附近的用户。以图5B作为一个示例，附近用户标识模块410将足球场530A标识为在目标用户U1的视野中。附近用户标识模块410标识位于圆520B内部位于场地530A周围的用户作为在目标用户U1附近的用户，其视频可以被目标用户U1用于组成多角度视频。

在一些实施例中，附近用户标识模块410随着目标用户U1从一处移动到另一处，或者随着其他用户移入或移出用于标识附近用户的区域的预定圆来标识不同的用户。例如，图5C图示了用户跨捕获体育赛事视频片断的多个其他用户移动的图。随着用户U1沿着路径550移动，被用于标识附近用户的具有预定直径的圆540也移动。例如，当用户U1处在第一位置时，第一圆540A被用于标识附近用户。使用圆540A，用户U2被标识为在用户U1附近，因为用户U2在第一圆540A内部。随着用户U1沿着路径550移动到第二位置，这里第二圆540B被用于标识附近用户。在此位置，无附近用户被标识，由于除了用户U1没有用户在圆540B内部。用户U1然后沿着路径550移动到第三位置，这里第三圆540C被用于标识附近用户。在此位置，两个用户U3和U4被标识为在用户U1附近，因为他们在第三圆540C内部。随着用户U1移动到第四位置，第四圆540D被用于标识附近用户。在图5C的示例中，没有其他用户被标识为在用户U1附近因为没有其他用户在第四圆540D内部。

返回参阅图4，视频呈现模块420向目标用户呈现由附近用户标识模块410标识的附近用户捕获的视频片断。例如，对于图5A的示例性的情况，视频呈现模块420向目标用户U1呈现来自用户U2、U3、U4和U5的视频片断。除用户U1他/她自己捕获的视频以外，用户U1可以使用来自标识的附近用户的一个或多个视频片断来组成多角度视频。

为进一步说明目标用户进行的多角度视频组成，图6为根据一个实施例的图示了来自附近用户的可用视频及用于生成多角度视频的用户的视频序列选择的图。如图6图示的，用户U1、U2、U3、U4、U5和U6在时间00：00和时间04：00内记录了足球比赛的视频片断。例如，阴影框指示每个用户记录了足球比赛的视频片断的时间段。在阴影框上面的实框指示用户U1已经挑选来组成所组成的视频的视频片断的部分。视频呈现模块420呈现在目标用户U1正在记录足球比赛视频的时间段期间由附近用户记录的视频(即，图6中由阴影框表示的视频)。

在一些实施例中，视频呈现模块420示出预览(例如，来自由附近用户捕获的视频关键帧的较低分辨率图像)。在其他实施例中，视频呈现模块420呈现其间附近用户已捕获体育赛事视频片断的时间段的标识。在图6所示的示例中，在多角度视频的组成中，呈现模块420示出由目标用户U1挑选的每个视频序列的定时信息(例如，开始和结束)。例如，目标用户U1挑选了由他/自己记录的视频片断的从时间00：00到时间01：02的部分，由用户U2记录的视频片断的从01：02到01：45的部分，由用户U3记录的视频片断的从01：45到02：30的部分，以及由目标用户U1记录的视频片断的从02：30到04：00的部分。

返回参阅图4，视频组成模块430从组成多角度视频的目标用户接收视频片断选择并使用由目标用户所选择的视频片断的部分来生成多角度视频。视频组成模块430取读由目标用户从视频数据库134选择的所选择的视频，并基于所取读的视频来组成多角度视频。尽管在此连同视频共享服务130一起描述了视频组成模块430，但是此处描述的功能可以被类似地通过在客户端设备110处的对应的视频组成模块来执行。

在一些实施例中，如果一个或多个附近用户仅上传了视频片断的元数据(例如，地理位置信息、定时信息和关键帧)而未上传视频，则视频组成模块430可以通知组成多角度视频的目标用户，视频中的一个或多个视频还不可用。在一些实施例中，当从一个或多个附近用户接收到缺失的视频时，视频组成模块430生成多角度视频。例如，如果附近用户U2和U4已上传了元数据和视频，而附近用户U3和U5上传了元数据但未上传视频；但是用户U1选择由用户U1、U3和U4捕获的视频的部分来被包括在多角度视频中，当由用户U3捕获的视频被上传到视频共享服务130时，视频组成模块430可以组成多角度视频。在一些实施例中，视频组成模块430可以向用户U3发送用以上传由用户U3捕获的视频的通知。

图7为根据一个实施例的用于上传视频片断以用于多角度视频组成的过程的流程图。最初，客户端设备110的视频获取引擎115使用客户端设备110的数字照相机捕获710事件，例如足球比赛的视频。视频获取引擎115使由客户端设备110捕获的视频的时间与视频共享服务138的时间同步720。

视频获取引擎115确定730客户端设备110的位置。例如，视频获取引擎115的地理位置模块330可以使用GPS接收器确定纬度和经度值。视频获取引擎115提取740来自由客户端设备110捕获的视频的关键帧，并生成750所提取的关键帧的低分辨率图像。视频获取引擎115向视频共享服务130发送760所提取的关键帧的低分辨率图像、所捕获的视频的经同步时间戳，以及在视频被捕获时客户端设备110的地理位置。视频获取引擎115向视频共享服务130发送770所捕获的视频。

图8图示了用于目标用户根据在目标用户附近的其他用户所捕获的多个视频片断来组成多角度视频的过程的流程图。最初，视频共享引擎138从目标用户接收810用以组成多角度视频的请求。视频共享引擎138标识820在目标用户附近的其他用户并标识830由附近用户捕获的视频。视频共享引擎138向目标用户呈现840来自附近用户的标识出的视频。视频共享引擎138接收850对视频的选择或由目标用户他/她自己和附近用户捕获的视频的部分。视频共享引擎138基于所选择的视频来组成860多角度视频，例如，通过根据其时间戳组合所选择的视频。视频共享引擎138向目标用户呈现870所组成的视频。

如前面提到的，根据从不同的角度捕获的视频的多角度视频组成可以被类似地在客户端设备110的视频组成模块处执行。最初，客户端设备110捕获并向视频共享服务130上传910视频，如参照图7所做的描述。与上传了视频的用户(即目标用户)相关联的客户端设备110向视频共享服务130发送920用以基于上传的视频组成多角度视频的请求。视频共享服务130与目标用户拍摄上传的视频时的几乎同时地标识在目标用户附近的其他用户。视频共享服务130取读由标识的附近用户捕获的视频并向客户端设备110发送视频。客户端设备110接收930由标识的附近用户捕获的视频并从接收到的视频选择940一个或更多视频或视频的部分。客户端设备110根据所选择的视频和/或视频部分来生成950多角度视频并在客户端设备110的显示器上向目标用户呈现960所生成的视频。

图11图示了用于以从多个角度捕获的视频片断组成多角度视频的示例性的用户界面1100。用户界面1100包括呈现由附近用户捕获的视频的图形用户界面(GUI)元素1110。图11的示例性的图形用户界面100包括呈现由5个不同用户捕获的视频的GUI元素1110(例如，GUI元素1110A用于呈现来自用户A的视频，GUI元素1110B用于呈现来自用户B的视频，GUI元素1110C用于呈现来自用户C的视频，GUI元素1110D用于呈现来自用户D的视频，并且GUI元素1110E用于呈现来自用户E的视频)。在一些实施例中，GUI元素1110示出由一位用户捕获的视频的关键帧。组成多角度视频的用户可以选择视频或由附近用户捕获的视频部分。在图11的示例中，用户D正在使用由用户A捕获的视频的一部分、由用户B捕获的视频的一部分、由他自己/她自己捕获的视频的一部分来组成多角度视频。

图形用户界面1100进一步包括回顾所组成的多角度视频的预览查看器1120及示出从被包括在多角度视频中的视频中选择的缩略图像的GUI元素1130。用户可以查看基于所选择的序列的多角度视频看起来会如何。如果用户不满意所选择的视频序列，则用户可以使用GUI元素1110来修改选择，直至获得想要的视频。

综述

本发明的实施例的前文描述已为说明的目的而展现；其不旨在穷尽或将本发明限制于公开的精确的形式。根据上述公开，相关领域的技术人员能够理解许多修改和变化都有可能。

描述的某些部分是按照算法和信息操作的符号指示来描述本发明的实施例。这些算法描述和表示为在数据处理领域中的技术人员所常用，能有效地将其工作内容传达给其他本领域技术人员。这些操作，虽然在功能、计算或逻辑上进行描述，但理解为由计算机程序或等同的电路、微码等等来实施。此外，还证明了将这些操作的安排称为模块，在多时候都便利而不失一般性。描述的操作及其相关联的模块可以于软件、固件、硬件或其任何组合中被实施。

本文描述的任何步骤、操作或过程可以用一个或多个硬件或软件模块而被执行或实施，单独或与其他设备组合。在一个实施例中，软件模块和包含计算机程序代码的计算机可读介质的计算机程序产品一起被实施，其可以由计算机处理器执行用于执行任何或全部所述的步骤、操作或过程。

本发明的实施例也可以涉及用于执行本文的操作设备。此设备可以为了所需的目的被专门构建，和/或其可以包括通过存储于计算机中的计算机程序选择性地启动或重新配置一般用途的计算设备。此类计算机程序可以被存储于非瞬态有形计算机可读存储介质中，或任何类型的适合于存储电子指令的介质，其可以被耦合到计算机系统总线。此外，本说明书中提及的任何计算系统可以包括单个处理器或者可以为利用多处理器设计以增强的计算能力的体系结构。

本发明的实施例还可以涉及由本文所描述的计算过程生产的产品。此类产品可以包括由计算过程产生的信息，信息被存储于非瞬态有形计算机可读存储介质上，且可以包括本文描述的任何计算机程序产品或其他数据组合的实施例。

最后，在本说明书中所使用的语言的选择主要为了易读性和指导性的目的，但可能不是为描绘或限制本发明的主旨而选择。因此不旨在本发明的范围被这类详细的描述所限制，而被任何立基于应用所发布的权利要求所限。相应地，本发明的实施例的公开旨在说明性，但并不限制，将于以下权利要求书中阐述的本发明的范围。

Claims

1.一种用于在客户端设备处组成多角度视频的计算机实施的方法，所述方法包括：

由与目标用户相关联的客户端设备捕获将被用在多角度视频中的视频，所述多角度视频包括所捕获的视频的至少一部分和由在所述目标用户附近的其他用户捕获的其他视频的多个部分；

确定与所捕获的视频相关联的多个元数据，所述多个元数据中包括：描述所述客户端设备的位置的地理位置信息、从所捕获的视频提取的关键帧的标识，以及与所提取的关键帧对应的较低分辨率图像的标识；

向计算机服务器发送所捕获的视频、所提取的关键帧对应的较低分辨率图像和相关联的元数据；

向所述计算机服务器发送用以组成包括所捕获的视频的多角度视频的请求；

接收由在所述目标用户附近的其他用户捕获的其他视频的多个部分，其中，在所述目标用户附近的其他用户由所述计算机服务器标识，所述计算机服务器根据所述地理位置信息来标识在所述目标用户附近的其他用户，附近用户为与所述目标用户同时地记录视频的用户，并且其中当所述目标用户正在记录所述视频时，所述附近用户位于所述目标用户的位置的阈值距离内；

选择其他视频的一个或多个部分；以及

基于其他视频的所选择的部分和由与所述目标用户相关联的所述客户端设备捕获的所述视频来生成所述多角度视频。

2.根据权利要求1所述的计算机实施的方法，其中与所捕获的视频相关联的所述多个元数据还包括：

指示所述视频何时由所述客户端设备捕获的时间戳。

3.根据权利要求1所述的计算机实施的方法，进一步包括：

确定描述所述客户端设备的位置的地理位置信息；

使与所述捕获视频相关联的时间戳与所述计算机服务器的时钟同步；

提取所捕获的视频的多个关键帧；以及

生成与所提取的关键帧对应的较低分辨率图像。

4.根据权利要求3所述的计算机实施的方法，其中从所捕获的视频提取多个关键帧包括：

针对每个预定义的时间间隔从所捕获的视频提取视频帧。

5.根据权利要求3所述的计算机实施的方法，其中从所捕获的视频提取多个关键帧进一步包括：

针对所捕获的视频的视频帧的每个预定义集合从所捕获的视频提取视频帧。

6.根据权利要求2所述的计算机实施的方法，其中所述地理位置包括来自以下组中的至少一项，所述组包括纬度、经度、高度和与所述客户端设备相关联的定向。

7.根据权利要求1所述的计算机实施的方法，其中生成所述多角度视频包括：

根据与所选择的视频相关联的时间戳，将由在所述目标用户附近的其他用户捕获的其他视频的所选择的部分与由与所述目标用户相关联的所述客户端设备捕获的所述视频进行组合。

8.一种用于组成多角度视频的计算机实施的方法，所述方法包括：

从目标用户接收用以组成多角度视频的请求；

标识由在所述目标用户附近的其他用户捕获的多个视频，其中，根据描述与所述目标用户相关联的客户端设备的位置的地理位置信息，标识所述目标用户附近的其他用户；

向所述目标用户呈现由附近用户捕获的所述多个视频，其中，所述附近用户为与所述目标用户同时地记录视频的用户，并且其中当所述目标用户正在记录所述视频时，所述附近用户位于所述目标用户的位置的阈值距离内；

接收对由所述目标用户和附近用户捕获的视频的部分的选择；以及

基于所述视频的所选择的部分来组成多角度视频。

9.根据权利要求8所述的计算机实施的方法，其中组成所述多角度视频包括：

接收由所述目标用户捕获的视频和由所述附近用户捕获的多个视频；

其中所述选择至少包括所述由所述目标用户捕获的视频的第一部分，和由附近用户捕获的视频的第二部分。

10.根据权利要求9所述的计算机实施的方法，进一步包括：

从由所述目标用户捕获的所述视频提取所述第一部分，以及

从由所述附近用户捕获的所述视频提取所述第二部分，以及

组合所述第一部分和所述第二部分以生成所述多角度视频。

11.根据权利要求8所述的计算机实施的方法，其中标识由附近用户捕获的所述多个视频包括：

确定与由所述目标用户捕获的视频相关联的地理位置和时间；及

标识已捕获视频的其他用户，所述视频与由所述目标用户捕获的所述视频在时间上重叠并且具有在与由所述目标用户捕获的所述视频相关联的所述地理位置的阈值距离内的地理位置。

12.根据权利要求8所述的计算机实施的方法，其中标识由附近用户捕获的所述多个视频包括：

基于所确定的地理位置标识地理边界；以及

标识已捕获视频的其他用户，所述视频与由所述目标用户捕获的所述视频在时间上重叠并且具有在所标识的地理边界内的地理位置。

13.根据权利要求12所述的计算机实施的方法，其中所述地理边界为以与由所述目标用户捕获的所述视频相关联的所确定的地理位置为中心的圆。

14.根据权利要求12所述的计算机实施的方法，其中标识所述地理边界包括：

标识在与由所述目标用户捕获的所述视频相关联的所确定的地理位置附近的地理特征；以及

标识与所标识的地理特征相关联的地理边界。

15.根据权利要求8所述的计算机实施的方法，进一步包括：

响应于确定来自由附近用户捕获的所述多个视频的视频不可用，向与不可用的所述视频相关联的用户发送用以提供不可用的所述视频的请求。

16.一种非瞬态计算机可读存储介质，其存储用于在客户端设备处组成多角度视频的可执行计算机程序指令，所述指令在由计算机处理器执行时使得所述计算机处理器：

选择其他视频的一个或多个部分；并且

17.根据权利要求16所述的计算机可读存储介质，其中与所捕获的视频相关联的所述多个元数据还包括：

指示所述视频何时由所述客户端设备捕获的时间戳。

18.根据权利要求16所述的计算机可读存储介质，其中所述指令在由计算机处理器执行时还使得所述计算机处理器：

确定描述所述客户端设备的位置的地理位置信息；

提取所捕获的视频的多个关键帧；并且

生成与所提取的关键帧对应的较低分辨率图像。

19.一种非瞬态计算机可读存储介质，其存储用于组成多角度视频的可执行计算机程序指令，所述指令在由计算机处理器执行时使得所述计算机处理器：

从目标用户接收用以组成多角度视频的请求；

接收对由所述目标用户和附近用户捕获的视频的部分的选择；并且

基于所述视频的所选择的部分来组成多角度视频。

20.根据权利要求19所述的计算机可读存储介质，其中用于标识由附近用户捕获的所述多个视频的指令在由计算机处理器执行时使得所述处理器：

基于所确定的地理位置标识地理边界；并且

21.根据权利要求19所述的计算机可读存储介质，其中所述指令在由计算机处理器执行时还使得所述计算机处理器：