CN108370416A

CN108370416A - 从视频流生成输出视频

Info

Publication number: CN108370416A
Application number: CN201680073893.XA
Authority: CN
Inventors: H.M.斯托景; E.托马斯; O.A.尼阿穆特; M.普林斯
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2015-12-17
Filing date: 2016-12-16
Publication date: 2018-08-03
Also published as: WO2017103065A1; US20190045119A1; EP3391639A1; EP3391639B1; US11089214B2

Abstract

提供了用于从表示场景的不同记录的多个视频流生成诸如视频全景之类的输出视频的系统和方法。可以分析所述多个视频流以标识所述多个视频流中的至少一个视频流的要用在输出视频中的至少一部分，由此标识视频流的作出贡献的部分。可以生成标识作出贡献的部分的编排元数据。可以将编排元数据提供给视频流源于的流源，以使得流源能够选择性地流式传输视频流的作出贡献的部分。实际上，可以做出对流的视频数据的选择来避免或减少不必要的带宽使用。

Description

从视频流生成输出视频

技术领域

本发明涉及用于从表示场景的不同记录的多个视频流生成诸如复合视频之类的输出视频的方法和系统。本发明进一步涉及包括用于使得处理器系统执行该方法的指令的计算机程序，涉及供在生成输出视频时使用的数据结构，并且涉及流源。

背景技术

已知从表示场景的不同记录或捕捉物的多个视频流生成复合视频。例如，可以从由多个无监督（移动）设备记录的多个视频的组合来生成场景的复合视频。在这样的情况下，通过组合所述多个设备的记录来创建场景的复合视图可以是可能的。可以增强复合视图，因为其可以提供场景的更广的视野、更高的空间分辨率、更高的帧率等。

在更广的视野的情况下，这样的复合视频常常被称为全景，并且可能涉及用来使得单独且不同的视频共同地提供复合且全景的视频的这样的方式处理所述单独且不同的视频的拼接（stitch）技术。多个视频的实时拼接被认为是计算密集且消耗存储器的任务。因此，研究先前已经朝着开发可以在拼接服务器上执行并且可以改进拼接视频的视觉质量并增加拼接过程的帧率（例如，每秒生成的帧的数量）并因此增加所产生的全景视频的帧率的高效算法。

不利的是，当从场景的不同记录生成输出视频时，在不同记录之间可能存在不充分的协调，这可能降低或限制输出视频的质量。

由Refaat等人于2011年7月11日至15日在Multimedia and Expo（ICME）第1- 6页发表的命名为“Active feedback for enhancing the construction of panoramic live mobile video streams（用于增强全景直播移动视频流的构造的主动反馈）”的论文涉及多个用户使用他们的移动电话直播流式传输来自不同角度的同一场景，其中目的在于构造场景的全景视频。作者认识到，流式传输用户之间的协调的缺乏可能导致传入流之间的太多重叠、太少重叠或没有重叠而使拼接不能正常地工作。增加挑战的是，流式传输用户一般自由移动，这意味着不同流之间的重叠量在动态地改变。为了解决这些问题，作者提议将反馈从反馈管理器提供到捕捉设备，其中捕捉设备然后向用户显示关于如何调整记录的提示（箭头）。例如，向左的箭头可以指示用户应当向左引导相机。

不利的是，上面标识的论文的作者依赖于用户来最佳地捕捉场景，并且特别是来避免传入流之间的太多重叠。然而，如果用户不调整或不能调整正被记录的场景的视图，则在传入流之间可能继续存在太多重叠。传入流之间的太多重叠暗示着冗余视频数据将被传输，这不必要地消耗了带宽。

发明内容

获得用于从表示场景的不同记录的多个视频流生成输出视频的方法或系统将会是有利的，其避免或减少不必要的带宽使用。

根据本发明的第一方面，提供了一种用于从表示场景的不同记录的多个视频流生成输出视频的方法。该方法可以包括：

- 接收所述多个视频流；

- 分析所述多个视频流以标识所述多个视频流中的至少一个视频流的要用在输出视频中的至少一部分，由此标识视频流的作出贡献的部分；

- 生成标识作出贡献的部分的编排（orchestration）元数据；

- 将编排元数据提供给视频流源于的流源，以使得流源能够选择性地流式传输视频流的作出贡献的部分。

根据本发明的另一方面，提供了一种用于从表示场景的不同记录的多个视频流生成输出视频的系统。该系统可以包括：

- 输入接口，用于接收所述多个视频流；

- 处理器，其被配置用于分析所述多个视频流以标识所述多个视频流中的至少一个视频流的要用在输出视频中的至少一部分，由此标识视频流的作出贡献的部分；

- 控制器，其被配置用于生成标识作出贡献的部分的编排元数据；以及

- 输出接口，用于将编排元数据提供给视频流源于的流源，以使得流源能够选择性地流式传输视频流的作出贡献的部分。

上面的措施涉及将多个视频流组合成输出视频。出于该目的，例如经由网络接收并且然后分析所述多个视频流。作为分析的结果，标识所述多个视频流中的至少一个视频流的要用在输出视频中的至少一部分。可选地，也可以标识相同视频流或不同视频流的其它部分。所述至少一部分被认为是所述视频流的作出贡献的部分，其然后被经由编排元数据标识给流源。

上面的措施具有以下效果：流源被通知视频流的哪个部分要用在输出视频中。照此，例如通过省略传输视频流的一个或多个非作出贡献的部分，使得流源能够自此以后选择性地流式传输视频流的作出贡献的部分。实际上，做出对要流式传输的流的视频数据的选择。特别地，通过选择性地流式传输原始视频流的作出贡献的部分，可以创建比特率减小的视频流，因为至少一些非作出贡献的部分（例如，空间区域和/或时间帧）被从视频流中省略。因为非作出贡献的部分有可能不用在输出视频中，所以该选择性流式传输可以避免或减少不必要的带宽使用。附加的优点可以是，例如通过使未对输出视频作出贡献的视频流的较少部分或者甚至没有部分不得不被处理，可以减少与生成输出视频相关联的计算负荷。

将领会，作出贡献的部分可以在视频流中具有多次出现。例如，作出贡献的部分可以是多个视频帧中的空间区域，或者可以表示视频流的帧的时间（子）选择。出现可以以规律的间隔，例如每帧或以某一（时间）距离。因此，通过向流源标识作出贡献的部分的一次出现，可以使得流源能够选择性地流式传输作出贡献的部分的其它出现。

将领会，考虑到视频流对输出视频的贡献可以随时间改变，可以连续地或者以规律的间隔执行分析。因此，编排元数据可以被更新（例如，被重新生成）并被提供给流源。为了使得能实现这样的分析，流源除了选择性地流式传输视频的作出贡献的部分之外还可以流式传输其可能对输出视频作出贡献的概率相对较高的部分，诸如作出贡献的部分的周围事物（surrounding）。例如，假如作出贡献的部分是空间区域，则流源可以传输包括围绕该空间区域的边界的空间区域。

在实施例中，输出视频可以是所述多个视频流的复合物。复合物的示例包括空间复合物、时间复合物或时空复合物。因此，作出贡献的部分可以是视频流的空间部分、时间部分或时空部分。作出贡献的空间部分的示例是空间区域或多个不连接的空间区域。作出贡献的时间部分的示例是例如表示最初记录的视频的时间二次采样或下转换的所选帧或多个帧。例如，场景最初可以以60Hz记录，并且然后被二次采样或下转换到24Hz以获得24Hz视频流。通过在时间上组合若干这样的经二次采样或下转换的视频流，时间复合物可以具有较高的帧率，例如60Hz或甚至更高。

在实施例中，复合物可以是所述多个视频流的空间复合物，并且作出贡献的部分可以是视频流的要被包括在空间复合物中的空间区域。空间复合物的示例是视频全景。照此，可以提供场景的更广的视野。

在实施例中，流源可以是记录设备，并且该方法可以进一步包括在编排元数据中包括一个或多个调整指令，所述一个或多个调整指令指示在视频流的记录中的改变空间复合物中的空间区域的大小或位置的调整。调整指令可以表示到流源中的一个或多个的反馈。可以提供这样的反馈，其中目的是更高效地生成输出视频。例如，在输出视频是复合物的情况下，反馈可以确保视频流的作出贡献的部分是互补的并且具有有限的重叠量。在实施例中，所述一个或多个调整指令可以是用户指令，其用于在被提供给用户时使得用户能够调整由记录设备记录的场景的视图。替代地，所述一个或多个调整指令也可以由设备自身自主地或半自主地应用。在另一实施例中，所述一个或多个调整指令可以被有条件地包括在编排元数据中，例如当由视频流提供的视图与由所述多个视频流中的另一视频流提供的视图之间的重叠越过预定阈值时。在又一实施例中，编排元数据可以包括所述一个或多个调整指令和条件参数，所述条件参数定义当要实现视频流的记录中的调整时的条件。这可以使得记录设备自身能够监视条件并例如通过自身实现所述一个或多个调整指令或者通过在满足由条件参数定义的条件时向用户提供调整指令而有条件地实现调整。

在实施例中，编排元数据可以包括标识视频流的空间区域的坐标和/或掩码的集合。例如，掩码可以是与空间区域对应的二进制掩码。

在实施例中，该方法可以进一步包括流源响应于编排元数据而执行以下中的至少一个：

- 选择性地记录视频流的作出贡献的部分；

- 在对视频流进行编码之前丢弃非作出贡献的部分；以及

- 在视频流的编码中丢弃或减小非作出贡献的部分的比特率。

选择性地记录视频流的作出贡献的部分可以包括例如通过适当地摇摄和变焦，通过调整记录间隔，通过将掩码应用于记录传感器的读出等，将记录自身调整成集中在作出贡献的部分上。替代地或附加地，非作出贡献的部分可以被在编码之前或期间丢弃，或者以以便减少它们在视频流中的比特率分配的方式进行处理。例如，非作出贡献的空间部分可以由同构的图像数据（诸如均匀地黑色或灰色的像素）替代。另一示例是（例如采取非作出贡献的帧的形式）的非作出贡献的时间部分可以从视频流中删除、由均匀地黑色或灰色的帧替代、或者由时间上邻近的帧的直接副本替代。

在实施例中，该方法可以进一步包括在编排元数据中包括一个或多个处理指令，所述一个或多个处理指令指示要由流源应用于视频流的至少作出贡献的部分的一个或多个预处理步骤。这里，形容词“预处理”指代要在流式传输之前执行的处理。例如，这样的预处理可以使得生成输出视频的计算负荷的部分能够被卸载到流源中的一个或多个。

在实施例中，所述一个或多个预处理步骤可以是以下中的至少一个：对视频帧进行时间插值以匹配编排元数据中包括的记录时间戳；丢掉视频帧以匹配编排元数据中包括的记录时间戳；调整帧率，向视频帧应用单应变换；以及将诸如对比度、亮度、饱和度、白点之类的图像特性适配成编排元数据中包括的参考值。将领会，编排元数据中的作出贡献的部分的标识也可以被看做处理指令，因为它指示了选择要流式传输的视频数据的预处理步骤。即，主动地调整记录以便避免或减少对非作出贡献的部分的记录也可以被认为是预处理的一个形式。

在实施例中，该方法可以进一步包括：除了视频流之外，流源还使流元数据可用以供在生成输出视频时使用。这样的流元数据可以提供关于视频流的附加信息，其可能在生成输出视频时是有用的。

在实施例中，流元数据可以包括以下中的至少一个：标识视频流中的图像特征的关键点信息；与视频流相关联的深度信息；诸如记录时间戳、传输时间戳和呈现时间戳之类的时钟信息；以及在记录视频流时使用的传感器的传感器信息。将领会，流元数据可以包括也可以在接收器侧从视频流生成的诸如关键点信息之类的信息。然而，通过已经在发送器侧（例如，在流源处）执行关键点标识并且使关键点信息可用作流元数据，生成输出视频的计算负荷的至少部分可以被卸载到发送器侧。因此，接收器（系统）可以分析可用作流元数据的关键点信息以标识作出贡献的部分，以便促进基于分析视频流数据中的图像特征来标识作出贡献的部分或者作为基于分析视频流数据中的图像特征来标识作出贡献的部分的替代方案。相反，流源可以能够访问原则上在视频流的接收器处不可用的信息。因此，通过将这样的信息包括为流元数据（例如，位置数据、定向数据和/或焦距），可以使这样的信息可用于接收器。

根据本发明的另一方面，可以提供一种暂时性或非暂时性计算机可读介质，计算机可读介质包括计算机程序，计算机程序包括用于使处理器系统执行所述方法的指令。

根据本发明的另一方面，可以提供一种暂时性或非暂时性计算机可读介质，计算机可读介质包括数据结构，数据结构包括：

- 编排元数据，其标识视频流的一部分；或者

- 流元数据，其表示由流源提供以供在从表示场景的不同记录的多个视频流生成输出视频时使用的信息。

本领域技术人员将领会，本发明的上面提及的实施例、实现和/或方面中的两个或更多个可以以认为有用的任何方式进行组合。

与所描述的对方法的修改和变型对应的对计算机程序、数据结构、流源和/或系统的修改和变型可以由本领域技术人员基本本说明书来执行。

附图说明

本发明的这些和其它方面根据下文描述的实施例而显而易见，并且将参考下文描述的实施例来阐明。在附图中，

图1示出了用于从表示场景的不同记录的多个视频流生成输出视频的系统，其中所述多个视频流由多个相应的记录设备进行流式传输；

图2图示了用于从表示场景的不同记录的多个视频流生成视频全景的系统；

图3示出了系统和一个记录设备的详细视图以及在系统和记录设备之间交换数据的示例；

图4示出了系统和记录设备之间的使得记录设备选择性地流式传输视频流的部分的消息交换，其中记录设备向系统提供关键点信息；

图5示出了记录设备和系统之间的其中记录设备向系统提供深度信息的消息交换；

图6示出了记录设备与系统的处理器和控制器系统之间的消息交换；以及

图7示出了示例性数据处理系统。

应当注意，在不同图中具有相同参考号码的项目具有相同的结构特征和相同的功能，或者是相同的信号。在已经解释了这样的项目的功能和/或结构的情况下，在详细描述中不需要对其的重复解释。

参考数字的列表

参考号码的以下列表被提供用于促进对附图的解释，并且将不被解释为限制权利要求。

020 场景

040 网络

100-102 流式传输视频流的记录设备

110-112 记录设备的视野

120 输出接口

130 视频流

132 流元数据

140 输入接口

150 编排元数据

152 标识信息

154 调整指令

156 处理指令

160、162 捕捉的帧

164 捕捉的帧的作出贡献的部分

168 场景的全景视图

200 用于生成输出视频的系统

202 拼接服务器

220 输入接口

240 处理器

260 控制器

280 输出接口

1000 示例性数据处理系统

1002 处理器

1004 存储器元件

1006 系统总线

1008 本地存储器

1010 大容量存储设备

1012 输入设备

1014 输出设备

1016 网络适配器

1018 应用。

具体实施方式

图1示出了由多个记录设备100-102记录的场景020。相应记录设备的视野110-112由虚线示意性地指示，指示由记录设备100-102中的每个获得的场景020的视图不同。因此，可以获得场景的不同记录。记录设备100-102也可以充当流源，因为它们可以使它们的记录可用作（实时）视频流。根据如所要求保护的本发明，可以提供用于从多个视频流生成输出视频的系统200。在图1的示例中，系统200被示意性地示出为经由网络040（例如，互联网、接入网络和/或私有网络）连接到记录设备100-102的服务器。

注意，在图1和下文中，记录设备100-102被配置成充当流源，并由此表示流源的特定示例。这样的记录设备的示例包括但不限于智能电话、紧凑型相机、专业相机、运动相机、平板、智能手表、智能眼镜等。一般地，视频流也可以源于任何其它类型的流源，包括但不限于（HTTP）流式传输服务器和在媒体分发网络内缓冲（多个）媒体流的流缓冲服务器。

图2图示了用于从表示场景的不同记录的多个视频流生成视频全景的系统。特别地，图2示出了记录场景020的两个记录设备100、101（在此示例中为智能电话），每个记录设备具有它们相应的视野110、111。第一智能电话100可以捕捉场景的第一部分，并且第二智能电话101可以捕捉场景的第二部分。在所产生的捕捉的帧160、162中可能存在示出为浅灰色和深灰色区（160左侧和中间并且162仅右侧）的显著重叠。每个智能电话可以连接到拼接服务器202，将它们的帧发送到服务器并且在发送（为了简洁起见未在图中示出的）其它帧之前接收用于对内容预处理的指令。当拼接服务器202接收到捕捉的帧160、162时，作为拼接过程的部分，它可以分析这些帧。拼接服务器202可以确定捕捉的帧之间存在太多重叠。拼接服务器202可能需要一些重叠来执行拼接，但（在部分160的中间中和部分162中的右边处的）深灰色区可能足够。照此，服务器202可能不需要捕捉的帧160中的浅灰色区来执行拼接。因此，服务器202可以指示第一智能电话100在编码后续帧并将它们发送到服务器之前对它们进行裁剪。

对于后续帧，第二智能电话101仍然可以发送其整个所捕捉的帧。另一方面，第一智能电话100可以根据来自拼接服务器202的指令来裁剪捕捉的帧。即，可以仅需要将作出贡献的部分164编码并传输到拼接服务器202，所述作出贡献的部分164仅具有与捕捉的帧162的最小重叠以促进拼接过程。通过不对来自捕捉的帧160的浅灰色区进行编码，第一智能电话100需要执行更少的处理。并且，因为浅灰色区也没有被传输，所以该省略也节省了从第一智能电话100到拼接服务器202的连接上的带宽。另外，其可以减少拼接服务器202上的计算负荷，因为服务器不必分析整个所捕捉的帧160。所以，即使拼接服务器202仅接收到捕捉的帧160的一部分164，这对于服务器而言与捕捉的帧162组合以创建场景的全景视图168仍然是足够的。

图3示出了系统200和一个记录设备100的详细视图以及在系统和记录设备之间交换数据的示例。系统200被示出为包括用于从记录设备100接收视频流130的输入接口220。这样的视频流可以由记录设备100使用输出接口120输出，并且可以经由（图3中未示出的）任何合适的通信路径被提供给系统200。

系统200被进一步示出为包括处理器240和控制器260。处理器240可以被配置成在系统200的操作期间分析视频流130以及从其它记录设备（未在图3中示出的其它记录设备）获得的其它视频流。控制器260可以被配置成在系统200的操作期间生成编排元数据150，所述编排元数据150然后可以经由输出接口280和任何合适的通信路径被提供给记录设备100的输入接口140。

在系统200的操作期间，处理器240可以分析视频流130以标识视频流130的要由系统200用在输出视频中的至少一部分，由此标识出视频流130的作出贡献的部分。将领会，对视频流的作出贡献的部分的分析和后续使用在视频处理领域中可以是本身已知的，因为它可以是用于从多个视频流生成特定类型的输出视频的已知技术的部分。例如，在输出视频是视频全景的情况下，已知的分析可以涉及标识不同视频流的视频数据中的关键点并且然后将关键点互相对齐以便生成视频全景。将领会，分析的类型取决于所生成的输出视频的类型。处理器240因此执行这样的分析并且明确地标识视频流130的作出贡献的部分。控制器260然后可以生成编排元数据150以包括标识作出贡献的部分的标识信息152。在接收到编排元数据150时，记录设备100然后可以选择性地流式传输视频流130的作出贡献的部分，例如仅流式传输由编排元数据指示的接着的经记录的视频帧的空间部分。

在非限制性示例中，如由系统200生成的输出视频可以提供所述多个视频流的空间复合物，诸如视频全景。作出贡献的部分可以是视频流130的空间区域。照此，系统200可以向记录设备100传达它足以流式传输视频流的空间区域，例如其视野的一部分，而非流式传输其视野的全部，或者具有有限量的周围事物的空间区域。在非限制性示例中，标识信息152可以采取可以标识视频流的空间区域的坐标和/或掩码集合的形式。标识信息152然后可以被记录设备100用来在编码为视频流之前或期间省略非作出贡献的部分。参考“标识信息”来描述标识信息152的使用的此方面和其它方面。注意，在图3中，编排元数据150被进一步示出为包括诸如调整指令154和处理指令156之类的可选组分，这将在本说明书中在前面进一步讨论。进一步注意，标识信息152可以被看做处理指令156的类型（例如，具体示例），因为标识信息152可以有效地指示记录设备100选择性地流式传输视频流的这样标识的作出贡献的部分。

图4示出了系统200和记录设备100之间的使得记录设备100选择性地流式传输视频流的部分的消息交换。在此示例中，记录设备100被附加地示出为使得（在图3中用参考数字132指示的）流元数据可用于系统200，即以关键点信息的形式。这样的流元数据可以包括可用于记录设备或由记录设备确定的可以在生成输出视频时的信息。特别地，通过将此信息提供给系统200，可以帮助系统200生成输出视频和/或标识作出贡献的部分。

在图4的命名为“发送记录（内容，时间戳）”的第一操作中，记录设备100可以例如以视频流的形式向系统200发送记录，即内容和关联的时间戳。附加地，记录设备100可以执行对视频内容的本地分析，并且特别地可以执行关键点检测。关键点描述图像的局部特征或视频中的视频帧的局部特征，并且包括但不限于ORB、FREAK、SIFT、SURF、MPEG CDVS描述符，如图像分析和计算机视觉领域中本身已知的。当将视频帧拼接成全景时，可以使用这些关键点对多个图像对进行匹配和互相对齐。通过在记录设备100上预先计算关键点并且例如在命名为“发送分析结果（关键点，时间戳）”的第二操作中将它们发送到系统200，系统200可以在早期阶段标识出潜在的拼接问题，诸如太多或太少重叠。替代地，例如通过将关键点作为元数据添加到内容流自身，可以将第一操作和第二操作组合在单个操作中。在命名为“执行图像匹配（关键点）”的第三操作中，系统200可以使用所提供的关键点执行图像匹配。在命名为“计算指令”的第四操作中，系统200然后可以计算到记录设备的指令，例如以将计算负荷卸载到记录设备100并减少摄取带宽。在图4的示例中，系统200计算要由记录设备100应用于它的记录的捕捉掩码，所述捕捉掩码可以在命名为“发送指令（捕捉掩码，时 间戳）”的第五操作中与时间戳信息一起提供给记录设备100并由记录设备100在命名为“调 整捕捉”的第六操作中应用于它的场景的记录。

注意，在记录设备100和系统200之间的消息交换中，可以包括时间信息以标识特别的经传输的信息（诸如内容、关键点或捕捉掩码）与哪个时刻相关。一般地，时间信息可以包括诸如记录时间戳、传输时间戳和呈现时间戳之类的时间戳。将领会，这样的时间戳可以使得记录设备100能够基于先前标识出的作出贡献的部分来预测当前作出贡献的部分。即，作出贡献的部分的标识可以与不同于被记录的场景的当前视图的场景视图有关。例如，当将记录设备稍微向左移动或转动时，作出贡献的部分可以在记录设备的视野内稍微向右有效地移动。通过向记录设备100提供时间戳，记录设备可以考虑相机移动或场景视图中的其它改变，并且因此预测当前视图的哪个部分被认为是当前作出贡献的部分。

除了关键点信息之外或作为关键点信息的替代，流源也可以提供其它信息作为流元数据，诸如传感器信息。传感器信息可以例如标识在记录视频流时使用的传感器，标识传感器的灵敏度、噪声剖面（noise profile）、饱和度、空间不均匀性等。流元数据的另一示例是相机定向信息。例如，3GPP定向信息允许经由现有媒体传输协议（诸如RTP或WebRTC）发送视频旋转，例如以补偿旋转的记录设备。特别地，可以使用如在“定向信息框”下的3GPP TS26.244 V13表8.13中定义的参数来发信号通知记录设备的定向并由此发信号通知它的视图，诸如“摇摄”、“摇摄_指示”、“旋转”和“倾斜”。可以进一步通过诸如“数字变焦”和“光学变焦”之类的参数来指示视野。

图5示出了记录设备100和系统200之间的消息交换，其中记录设备100以深度信息的形式向系统提供流元数据。这样的深度信息可以与视频流相关联，因为它可以指示视频流的帧的单独像素或像素群组的深度。一般地，这样的深度信息可以从深度感测阵列、飞行时间相机、结构光传感器或者从立体相机的视频数据获得，并且可以由指示深度的深度图或其它类型的信息（包括视差信息）表示。

如由记录设备100在命名为“发送记录（内容，深度图，时间戳）”的第一操作中提供的这样的深度信息可以帮助生成输出视频。替代地，可以使用例如时间戳将深度图信息与实际内容相关联而在分离的操作中发送深度图信息。例如，在诸如视频全景之类的空间复合物的情况下，如在由Jun-Tae Lee等人于2013年10月29日至11月1日在APSIPA 2013第1-4页发表的论文“Stitching of Heterogeneous Images Using Depth Information（使用深度信息对异构图像的拼接）”中描述的3D建模技术可用于在非常早期的阶段标识出潜在的拼接问题，诸如欠佳的传感器方位或场景遮挡。深度信息的这样的使用已经在图5中以命名为“执行图像匹配（内容，深度图）”的第二操作的形式图示，其中使用深度信息来执行图像匹配。在执行第二操作之后，在命名为“计算指令”的第三操作中确定调整指令。一般地，这样的调整指令可以被作为编排元数据的部分来提供，以指示要在视频流的记录中执行的调整。例如，调整指令可以指示帧率适应、捕捉掩码调整、传感器调整等，其在由记录设备应用时促进拼接过程并由此改进所产生的经拼接的全景视频的质量。在图5中，以捕捉的场景中的新传感器方位的形式的调整指令连同时间戳一起被在命名为“发送指令（方位，时间 戳）”的第四操作中提供给记录设备100，并由记录设备100在命名为“调整捕捉”的第五操作中应用于它的记录。例如，系统200可以基于从多个（移动）记录设备接收的内容和深度图来构造3D视觉场景模型，并且确定至少一个记录设备的传感器在此场景中的方位（位置和定向的组合）。系统200然后可以使用此信息来“重新安置”相机传感器，例如发送关于如何以某个方式移动和/或旋转相机传感器的指令。

图4和图5示出了可以如何将媒体编排应用于系统的非常具体的示例，在所述系统中多个源向用于生成视频输出的系统提供输入。图6示出了从之前给出的非常具体的示例中抽象出的更一般的解决方案，其中记录设备100可以向系统200提供任何种类的元数据。图6也示出了处理器240和控制器260可以是分布式的，即不位于单个物理系统上。特别地，图6示出了记录设备100与系统的处理器240和控制器260之间的消息交换。在此示例中，系统可以充当媒体编排系统，其可以关联媒体编排会话中的多个传入流。处理器240可以分析如由记录设备100在命名为“发送记录（内容，元数据，时间戳）”的第一操作中以视频流和关联的流元数据的形式提供的传入内容，所述关联的流元数据包括例如关键点信息、深度信息等。处理器240可以使用流元数据在命名为“执行图像匹配（内容，元数据）”的第二操作中执行图像匹配，例如用于生成视频全景，并且可以在命名为“发送媒体编排指南”的第三操作中向控制器260建议编排指南。根据这些指南，控制器260可以在命名为“计算媒体编排元 数据”的第四操作中推导编排元数据，并且在命名为“发送媒体编排（内容，时间戳）”的第五操作中以相应的媒体编排元数据流的形式将它们发送到记录设备100并且可能发送到其它记录设备。这样的编排元数据可以采取提议的捕捉时间戳、相关时间戳、捕捉掩码、信号变换、传感器调整、关于共同记录设备的信息等的形式。记录设备100然后可以在命名为“调整捕捉”的第六操作中基于编排元数据来调整记录。

标识信息

将领会，流源可以响应于包括标识信息的编排元数据来选择性地记录视频流的作出贡献的部分，在对视频流进行编码之前丢弃非作出贡献的部分，和/或在视频流的编码期间丢弃或减小非作出贡献的部分的比特率。标识信息可以采取掩码的形式，所述掩码例如是指代掩码可以被应用于捕捉的视频数据的事实的捕捉掩码，其可以由记录设备应用在生成视频流的不同阶段。注意，捕捉掩码可以用绝对值或相对值来表达。前者具有独立于其适用于的实际坐标系的优点。在示例中，捕捉掩码可以被作为输入参数而传输到传感器。在接收时，传感器然后可以根据捕捉掩码从传感器捕捉的全帧中裁剪出（crop out）一些像素，并提供“裁剪出的”帧作为原始捕捉帧。

在另一示例中，记录设备可以对由传感器捕捉的全帧应用后处理操作。此后处理操作的结果可以是裁剪出的帧，其在原始捕捉帧中的位置和大小由捕捉掩码指示。在另一示例中，可以将捕捉掩码作为输入参数提供给视频编码器。视频编码器可以应用诸如裁剪之类的预处理滤波器，而且可以应用诸如分辨率缩放、去噪声等的预处理操作。称作FFmpeg（参见http://ffmpeg.org/）的公知的开源工具提供了如在文档（http://ffmpeg.org/ffmpeg-all.html）中解释的这些功能性中的全部。然而，在命令行工具中，捕捉掩码可以有效地变成编码器的静态配置。这可能具有如下缺点：当捕捉掩码改变时，可能需要停止进行的编码操作并且开始新的编码操作。

在另一示例中，可以在视频编码实例内部动态地应用捕捉掩码，即通过在视频帧的实际编码之前将捕捉掩码应用于视频编码流水线中。作为具体且非限制性的示例，诸如Intel媒体SDK之类的开发工具包或诸如GStreamer（参见http://gstreamer.freedesktop.org/）的媒体流水线框架可以用于构建定制的视频编码流水线，其中捕捉掩码可以在相同的编码实例内动态地改变。因此，为了改变经编码的帧的大小，视频编码器可以相应地将这些改变发信号通知给视频流的接收器，例如服务器。例如，HEVC视频编码标准ISO/IEC 23008-2:2015定义了承载这样的元数据的NAL（网络抽象层）单元。特别地，每当帧大小基于更新捕捉掩码而改变时，视频编码器可以插入包含pic_width_in_luma_samples和pic_height_in_luma_samples的新值（即，帧尺寸）的新的序列参数集（SPS）。当使用其它视频编码标准时，可以采取类似的措施来向视频流的接收器正确地发信号通知变化的帧尺寸。

调整指令

如还参考图3和5描述的，编排元数据中可以包括指示视频流的记录中的调整的一个或多个调整指令，其可以导致视频流的作出贡献的部分的调整以及由此的改变。例如，调整指令可以导致用于空间复合物的空间区域的方位和/或大小中的改变。所述一个或多个调整指令可以是用户指令，用于在被提供给用户时使得用户能够调整由记录设备记录的场景的视图。然而，所述一个或多个调整指令也可以由设备自身自主地或半自主地应用。例如，如果记录设备具有摇摄和/或变焦功能性，则调整指令可以指示记录设备执行摇摄和/或变焦。所述一个或多个调整指令也可以被有条件地包括在编排元数据中，例如当视频流提供的视图与所述多个视频流中的另一视频流提供的视图之间的重叠越过预定阈值时。例如，在空间复合物的情况下，在视图之间的重叠变得太大而导致视频流中的太多冗余时，而且在视图之间的重叠变得太小并因此阻碍图像匹配过程时，可以提供调整指令。

处理指令

如参考图3简要指示的，编排元数据中可以包括一个或多个处理指令，其可以指示要由流源应用于视频流的作出贡献的部分的至少部分的一个或多个预处理步骤。例如，所述一个或多个预处理步骤可以包括例如通过使用诸如运动补偿的时间上/下转换之类的技术对视频帧进行时间插值以匹配编排元数据中包括的记录时间戳。这将允许多个源在完全相同的时刻捕捉帧，由此进一步优化以后的拼接。同样地，流源可以被指示仅丢掉视频帧以匹配编排元数据中包括的记录时间戳，向视频帧应用单应变换或者将诸如对比度、亮度、饱和度、白点之类的图像特性适配成编排元数据中包括的参考值。这样的预处理可以使得生成输出视频的计算负荷中的部分能够被卸载到流源中的一个或多个。将领会，编排元数据中的作出贡献的部分的标识也可以被看作预处理指令，因为它指示选择性地流式传输作出贡献的部分的预处理步骤。照此，在实施例中，可以以指示流源选择性地流式传输作出贡献的部分的预处理指令的形式提供标识作出贡献的部分的标识信息。

其它一般方面

将领会，如所要求保护的本发明可以与所有合适的视频编码/容器格式和流式传输协议一起使用，它们包括但不限于通过RTP的H.264/HEVC、HLS、MPEG2-TS、MP4和MPEG-DASH。作为输出视频，可以生成视频流。在具体示例中，如果输出视频提供复合物，则可以生成复合视频流作为输出。

用于生成输出视频的系统可以在服务器中实现，但也可以在记录设备中、在网络的一个或多个网络实体中、或者在要渲染（render）输出视频的渲染设备的网络栈中等来实现。

输出视频可以是组合来自多个视频流的视频数据的任何种类的视频，包括但不限于视频全景、360度视频、马赛克视频或增强视频，其中增强的示例包括更高的空间分辨率和/或更高的时间分辨率。用于从多个视频流创建这样的输出视频的技术在视频处理领域中是自身已知的。

编排元数据可以被直接地或间接地提供给流源。后者的示例是编排元数据例如由拼接服务器上传到web服务器。web服务器可以经由HTTP将元数据递送给智能电话，所述智能电话然后可以将元数据递送给例如经由蓝牙连接而连接到智能电话的记录设备。

图7是图示了可以在本公开的实施例中使用的示例性数据处理系统的框图。这样的数据处理系统包括在本公开中描述的数据处理实体，包括服务器、客户端、设备、控制器等。数据处理系统1000可以包括通过系统总线1006耦合到存储器元件1004的至少一个处理器1002。照此，数据处理系统可以将程序代码存储在存储器元件1004内。进一步地，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一个方面，数据处理系统可以被实现为适于存储和/或执行程序代码的计算机。然而，应当领会，数据处理系统1000可以以包括能够执行本说明书内所描述的功能的处理器和存储器的任何系统的形式来实现。

存储器元件1004可以包括一个或多个物理存储器设备，诸如例如本地存储器1008及一个或多个大容量存储设备1010。本地存储器可以指代随机存取存储器或（多个）其它非持久存储器设备，其一般用在程序代码的实际执行期间。大容量存储设备可以被实现为硬盘驱动器或其它持久数据存储设备。处理系统1000也可以包括一个或多个高速缓冲存储器（未示出），其提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储设备1010取回程序代码的次数。

被描绘为输入设备1012和输出设备1014的输入/输出（I/O）设备可选地可以耦合到数据处理系统。输入设备的示例可以包括但不限于例如键盘、诸如鼠标之类的定点设备等。输出设备的示例可以包括但不限于例如监视器或显示器、扬声器等。输入设备和/或输出设备可以直接耦合到或通过介于中间的I/O控制器耦合到数据处理系统。网络适配器1016也可以耦合到数据处理系统，以使得其能够变得通过介于中间的私有或公共网络而耦合到其它系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由数据的所述系统、设备和/或网络传输的所述数据的数据接收器和用于向所述系统、设备和/或网络传输数据的数据发送器。调制解调器、线缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。

如图7中所示，存储器元件1004可以存储应用1018。应当领会，数据处理系统1000可以进一步执行可以促进应用的执行的操作系统（未示出）。以可执行程序代码的形式实现的应用可以由数据处理系统1000（例如由处理器1002）执行。响应于执行应用，数据处理系统可以被配置成执行要在本文中更详细地描述的一个或多个操作。

在一个方面，例如，数据处理系统可以表示用于从多个视频流生成输出视频的系统。在该情况下，应用1018可以表示在被执行时将数据处理系统1000配置成执行本文中参考“用于从多个视频流生成输出视频的系统”描述的各种功能的应用。这样的系统的示例包括但不限于个人计算机、工作站、膝上型计算机、服务器、被配置用于在客户端-服务器模式中使用的服务器等。

在另一方面，数据处理系统1000可以表示流源。在该情况下，应用1018可以表示在被执行时将数据处理系统1000配置成执行本文中参考“流源”描述的各种功能的流式传输应用。流源的示例可以包括但不限于（HTTP）流式传输服务器、在媒体分发网络内缓冲（多个）媒体流的流缓冲服务器、以及包括（音频）视觉传感器并且可以被配置成充当流源的记录设备。这样的记录设备的示例包括智能电话、紧凑型相机、专业相机、智能手表、智能眼镜等。

在权利要求中，放置在圆括号之间的任何参考符号将不被解释为限制权利要求。动词“包括”及其词形变化的使用不排除与权利要求中陈述的那些元件或步骤不同的元件或步骤的存在。在元件之前的冠词“一”或“一个”不排除多个这样的元件的存在。本发明可以借助于包括若干有区别的元件的硬件和借助于适当编程的计算机来实现。在列举若干部件的设备权利要求中，这些部件中的若干部件可以由同一个硬件项来体现。在互相不同的从属权利要求中记载了某些措施的纯粹事实不指示这些措施的组合不能被有利地使用。

Claims

1.一种用于从表示场景的不同记录的多个视频流生成输出视频的方法，所述方法包括：

- 接收所述多个视频流；

- 分析所述多个视频流以标识所述多个视频流中的至少一个视频流的要用在所述输出视频中的至少一个空间部分或者帧的时间选择，由此标识视频流的作出贡献的部分；

- 生成标识所述作出贡献的部分的编排元数据；

- 将所述编排元数据提供给所述视频流源于的流源，以使得所述流源能够选择性地流式传输所述视频流的所述作出贡献的部分。

2.根据权利要求1所述的方法，其中所述输出视频是所述多个视频流的复合物，诸如空间复合物、时间复合物或时空复合物。

3.根据权利要求2所述的方法，其中所述复合物是所述多个视频流的空间复合物，诸如视频全景，并且其中所述作出贡献的部分是所述视频流的要被包括在所述空间复合物中的空间区域。

4.根据权利要求3所述的方法，其中所述流源是记录设备，并且其中所述方法进一步包括在所述编排元数据中包括一个或多个调整指令，所述一个或多个调整指令指示所述视频流的记录中的改变所述空间复合物中的所述空间区域的大小或位置的调整。

5.根据权利要求4所述的方法，其中所述一个或多个调整指令是用户指令，用于在被提供给所述用户时使得所述用户能够调整由所述记录设备记录的所述场景的视图。

6.根据权利要求4或5所述的方法，其中所述一个或多个调整指令被有条件地包括在所述编排元数据中，例如当所提供的视图与由所述多个视频流中的另一视频流提供的视图之间的重叠超过预定阈值时。

7.根据权利要求2至6中任一项所述的方法，其中所述编排元数据包括标识所述视频流的所述空间区域的坐标和/或掩码的集合。

8.根据权利要求1至7中任一项所述的方法，进一步包括所述流源响应于所述编排元数据而执行以下中的至少一个：

- 选择性地记录所述视频流的所述作出贡献的部分；

- 在对所述视频流进行编码之前丢弃非作出贡献的部分；以及

- 在所述视频流的所述编码中丢弃或减小非作出贡献的部分的比特率。

9.根据上面的权利要求中的任一项所述的方法，进一步包括在所述编排元数据中包括一个或多个处理指令，所述一个或多个处理指令指示要由所述流源应用于所述视频流的至少所述作出贡献的部分的一个或多个预处理步骤。

10.根据权利要求9所述的方法，其中所述一个或多个预处理步骤是以下中的至少一个：

- 对视频帧进行时间插值以匹配所述编排元数据中包括的记录时间戳；

- 丢掉视频帧以匹配所述编排元数据中包括的记录时间戳；

- 向视频帧应用单应变换；以及

- 将诸如对比度、亮度、饱和度、白点之类的图像特性适配成所述编排元数据中包括的参考值。

11.根据上面的权利要求中的任一项所述的方法，进一步包括除了所述视频流之外，所述流源还使流元数据可用以供在生成所述输出视频时使用。

12.根据权利要求11所述的方法，其中所述流元数据包括以下中的至少一个：

- 标识所述视频流中的图像特征的关键点信息；

- 与所述视频流相关联的深度信息；

- 诸如记录时间戳、传输时间戳和呈现时间戳之类的时钟信息；以及

- 在记录所述视频流时使用的传感器的传感器信息。

13.一种包括计算机程序的暂时性或非暂时性计算机可读介质，所述计算机程序包括用于使得处理器系统执行根据权利要求1至12中任一项所述的方法的指令。

14.一种包括数据结构的暂时性或非暂时性计算机可读介质，所述数据结构包括：

- 编排元数据，其标识视频流的空间部分或者帧的时间选择；或

15.一种用于从表示场景的不同记录的多个视频流生成输出视频的系统，所述系统包括：

- 输入接口，用于接收所述多个视频流；

- 处理器，其被配置用于分析所述多个视频流以标识所述多个视频流中的至少一个视频流的要用在所述输出视频中的至少一个空间部分或者帧的时间选择，由此标识视频流的作出贡献的部分；

- 控制器，其被配置用于生成标识所述作出贡献的部分的编排元数据；以及

- 输出接口，用于将所述编排元数据提供给所述视频流源于的流源以使得所述流源能够选择性地流式传输所述视频流的所述作出贡献的部分。

16.一种用于流式传输视频流的流源，所述视频流表示场景的记录，所述流源包括：

- 输入接口，用于接收编排元数据，所述编排元数据标识所述视频流的要被选择性地流式传输的空间部分或者帧的时间选择，由此标识所述视频流的作出贡献的部分；以及

- 输出接口，用于选择性地流式传输所述视频流的所述作出贡献的部分。