CN115443662A

CN115443662A - 制作视频以用于内容插入

Info

Publication number: CN115443662A
Application number: CN202180027450.8A
Authority: CN
Inventors: 迈克尔·保罗·亚力山大·盖斯勒; 詹姆斯·迈克尔·尤伦
Original assignee: Mo Sys Engineering Ltd
Current assignee: Mo Sys Engineering Ltd
Priority date: 2020-04-03
Filing date: 2021-04-01
Publication date: 2022-12-06
Also published as: WO2021198702A1; EP4128799A1; US20230276082A1; GB202004965D0; GB2594046A; JP2023520532A

Abstract

一种用于捕获视频流的系统，该系统包括：相机；以及编码设备，该编码设备被配置为将由相机捕获的视频与对视频中出现预定替换对象的位置进行指示的元数据一起存储。

Description

制作视频以用于内容插入

技术领域

本发明涉及制作和改编视频。

背景技术

可以调整视频流以更改其中的某些内容。例如，已知的是，识别视频流中的诸如广告牌之类的对象，并将待显示在该对象上的内容替代。可以手动或自动识别对象。为了使对象能够可靠地被识别，已知要确保该对象具有预定的颜色，最常见的是绿色。该技术的一种用途是允许视频流包含针对特定观众的广告，或者在播出视频流时是最新的。另一种用途是修改视频所描绘的故事：例如，视频中显示的书中的文字可以调整为适合特定观众或观众组的语言，或者视频中显示的书中的文字可以被调整以提供不同的信息，从而会改变视频的含义。

实施这项技术存在多个困难。以广告牌为例，首先要在原始视频流中识别出适合适配的广告牌。然后，为了使广告牌上显示的任何新信息看起来逼真，该信息的位置、大小和失真必须随着时间的推移而与最初捕获视频的相机的位置和角度的变化相匹配。通常这些调整是手动完成的，这很耗时。此外，最初制作视频的人可能难以有适当的机会来调整视频内容。

需要一种改进的方式来制作和改编视频。

发明内容

根据一个方面，提供了一种用于捕获视频流的系统，该系统包括：相机；以及编码设备，该编码设备被配置为对由相机捕获的视频以及对预先指定的替换对象在视频中出现的位置进行指示的元数据进行存储。

元数据可以指示视频期间出现替换对象的时间。

元数据可以指示视频的随时间流逝而被替换对象占据的区域。

元数据可以指示替换对象的大小和形状。

元数据可以指示：在替换对象出现在视频中时的一个或更多个时间处，相机的镜头的一个或更多个特性。

元数据可以指示：在替换对象出现在视频中时的一个或更多个时间处，视频的一个或更多个颜色特性。

该系统可以包括输入设备，用户可以通过该输入设备将元数据中的至少一些元数据输入到系统。

根据第二方面，提供了一种用于对视频进行处理以用备选内容替代视频中的可替换内容的系统，该系统包括处理器，该处理器被配置为：对与视频相关联的元数据进行处理，以识别视频中出现可替换内容的区域；根据元数据，从存储有备选内容的数据存储中选择备选内容项；以及对视频进行处理，以用根据备选内容形成的替代内容来替代视频的由元数据限定的区域。

元数据可以指示在视频中出现可替换内容时相机捕获视频的姿势。处理器可以被配置为根据所指示的姿势使备选内容在空间上失真以形成替代内容。

元数据可以指示在视频中出现可替换内容对象时，相机镜头的一个或更多个特性。处理器可以被配置为根据所指示的镜头特性使备选内容在空间上失真以形成替换内容。

元数据可以指示在视频中出现可替换内容时，视频的一个或更多个颜色特性。处理器可以被配置为根据所指示的镜头特性在色彩上使备选内容失真以形成替换内容。

根据第三方面，提供了一种用于播出视频流的方法，该方法包括：形成用于播出的第一视频流，第一视频流描绘有用于供覆盖层替换的至少一个空间；形成用于播出的第二视频流，第二视频流具有对应于第一视频流的删节；播出第二视频流；在删节处停止第二视频流的播出；随后，播出第一视频流，其中空间被覆盖物替换；随后播出第二视频流的另外部分。

该方法可以包括将由相机捕获的视频与对预先指定的替换对象在视频中出现的位置进行指示的元数据一起存储。

根据第四方面，提供了一种用于处理视频流以用备选内容替代视频流中的可替换内容的方法，该方法包括：对与视频流相关联的元数据进行处理，以识别视频流中出现可替换内容的区域；根据元数据，从存储有备选内容的数据存储中选择备选内容项；对视频流进行处理，以用根据备选内容形成的替换内容来替代视频流的由元数据限定的区域。

该方法可以包括对视频流进行处理以确定视频流是否包含指示该视频流符合一种或更多种标准格式的数据，并且仅在视频流包含这样的数据时替代如上所述的视频流的区域。

任何处理器可以由单个CPU构成，也可以分布在多个CPU之间，这些CPU可以安置在一起，也可以位于不同的位置处。

可以提供用于实施上述方法的装置。该方法可以由一台或更多台适当编程的计算机来实施。

根据第五方面，提供了一种用于对视频流进行处理以用备选内容替代视频流中的可替换内容的方法，该方法包括：使用被编程为实现图像识别算法的计算机处理视频流，以在视频流中识别出具有包含一个或更多个预定对象的倾向的环境的描述；从数据存储中检索预定对象中的一个预定对象的模型；以及对视频流进行处理以用根据检索到的模型形成的替换内容来替代视频流的描述所识别环境的区域。

附图说明

现在将参照附图以示例的方式描述本发明。

在附图中：

图1示出了视频捕获和后期制作系统的架构。

图2更详细地示出了图1的视频捕获系统。

图3示出了组合有不同的视频流的工作流程。

具体实施方式

图1示出了用于捕获视频然后对所捕获的视频进行处理以对其进行视觉调整的系统。

在图1的系统中，由相机2观看到场景1。相机捕获并存储描绘该场景的视频流。捕获的视频存储在数据存储器3中。数据存储器3可以是远离相机的。视频播出系统4可以访问数据存储器。终端用户可以从播出系统请求视频。播出系统然后可以通过在通信路径11上传输视频来将选择的视频播出到终端用户设备6。例如，终端用户设备可以是电话、平板电脑或计算机。通信路径可以在诸如互联网之类的公共可访问网络上延伸。

播出系统可以播出由相机捕获的原始视频，或者播出系统可以播出原始视频的改编版本。视频的改编版本可以以多种方式进行改编。为了说明，将描述一个示例。终端用户设备6通过通道8向播出系统发送上下文(context)信息。上下文信息表示用户设备6的上下文：例如用户设备的位置或关于用户设备过去行为的信息，例如以cookie的形式。播出系统具有处理器8和存储器9，该存储器以非瞬态形式存储用于由处理器8执行以使其驱动播出系统如本文所述那样运行的代码。播出系统8可以访问存储有一系列广告的广告数据库7。根据从用户接收的上下文信息和/或可以存储在数据库7中的其他信息，例如哪些广告适合被包含在特定视频流中以及哪些广告将被优先包含的指示(这可能取决于来自潜在广告商的出价水平)，播出系统选择供包含在向设备6的用户播出的视频流中的广告。播出系统从数据库7中检索该广告。视频中的场景的区域12已被保留以用于放置该广告。播出系统形成改编视频，该改编视频是基于最初捕获的视频但其中所选择的广告已被放置在视频的对应于区域12的部分中。完成此操作的方式将在下面更详细地描述。然后将改编的视频播出到设备6以在该设备处呈现给用户。这样，用户就收到了定制的广告。广告被结合到视频中，因此看起来该广告在最初拍摄视频时便已经存在。可以使用相同的方法以针对不同语言来调整视频中的视觉元素(例如，通过将文本更改为适合用户的语言、如背景数据所示)或提供不同的故事情节。

可以使用其他信息来选择在特定时段中播出的广告。例如，可以选择广告以使该广告的主要或突出颜色与该覆盖广告旁边的视频中所描绘的突出对象的颜色相匹配。或者可以选择广告以使该广告的品牌的特征与这种突出对象的特征相匹配。

广告可以传达品牌或营销信息，也可以传达其他信息，例如教育信息、公共服务信息或设备测试信息。广告可以采用静止图像或视频片段的形式。可以通过在同一屏幕上支持曝光来放大广告：例如角落错误(corner bugs)、滚动条或挤压或水印，如音频代码。

视频可以以压缩和/或视频编码的格式来存储。为了在视频上覆盖广告或其他替代内容，可以对视频进行解压缩和/或解码以产生一系列视频帧或部分帧。通过将内容覆盖在相应的帧或部分帧上来调整要显示替代内容的帧或部分帧。然后，视频可以被重新压缩和/或重新编码，并被存储和/或传输到终端用户设备。

当替代内容覆盖在视频上时，优选的是，以使替代内容看起来好像该替换内容在视频拍摄时最初便存在的方式来完成。为了实现这一点，可以使替代内容失真(例如，通过色调调整、亮度调整、对比度调整、缩放、梯形变换、旋转、桶形变换和枕形变换中的一者或更多者)以匹配视频中由相机捕获视频时的运动、镜头失真等引起的任何变化。实现这一点的机制将在下面进一步讨论。

图2更详细地示出了图1的视频捕获系统。

相机2向预览单元20提供对所捕获的视频的馈送。提供显示器21以允许观看所捕获的视频。显示器21可以与相机结合，以允许相机的操作者在捕获视频的同时看到显示器上的图像。相机配备有监控单元23。监控单元确定以下各者中的一者或更多者：(i)相机相对于场景1的位置，(ii)相机的视场相对于场景1的方向，(iii)相机的光学状态。相机的光学状态可以包括相机使用的镜头的焦距、镜头的光圈、镜头的品牌、镜头的型号和相机使用的颜色参数中的一者或更多者(例如白平衡或色彩空间)。监控单元将该信息提供给预览单元20。

预览单元包括处理器24和存储器25。存储器以非瞬态方式存储可以由处理器24执行以使预览单元执行本文所描述的功能的代码。预览单元从诸如控制台26之类的输入设备接收信息，该信息指示场景中的一个或更多个空间——类似于空间12——将被分配以用于在后处理期间通过改编所捕获的视频来添加信息。预览单元还可以从输入设备接收关于要在空间中添加什么信息的指示：例如广告牌的图像、公共汽车候车亭的图像或送货车的图像。图像可以由相机捕获或可以是计算机生成的。预览单元从相机23接收捕获的视频并形成预览视频流，在该预览视频流中，捕获的视频已被改编为在指定空间显示指定类型的对象或诸如交叉影线的中性图案。插入的对象或图案称为覆盖物。该预览视频流被提供给显示器21。以这种方式，视频捕获设施处的操作员可以获得对场景的印象，因为一旦捕获的视频在播出系统4处被改编时便将出现该场景。这可以帮助操作员对捕获的视频流进行组合。

当预览单元以这种方式改编捕获的视频时，预览单元可以根据从监控单元接收到的信息来改编捕获的视频。预览单元根据从监控单元接收的信息确定插入内容的比例、位置、失真、颜色和角度。例如：

-随着相机2平移或倾斜，在视频流中描绘空间12的位置将改变。预览单元可以使用来自监控单元的信息来确定在视频流中描绘空间12的位置，并且可以插入覆盖物，使得即使在相机移动时该覆盖物看起来也在场景1中。

-随着相机2的缩放，可以以类似的方式对覆盖物的大小进行调整。

-由于空间12被描绘在视频流中的不同位置，相机镜头的失真对邻近空间的物体的影响将会改变。该失真可以由预览单元基于存储在存储器25中的关于镜头行为的信息来预测，并且预览单元然后可以使覆盖物失真，以使该覆盖物看起来与捕获的视频流相协调。

-可以选择覆盖物的颜色(包括亮度、对比度和白平衡等因素)以匹配捕获的视频流中的颜色平衡。总之，预览单元自动确定覆盖物的大小、位置、形状和颜色以与相机的位置、姿态和配置相匹配。以这种方式，覆盖物可以看起来好像该覆盖物作为捕获的视频流的一部分而被捕获。这可以避免后期制作合成的需要、除了色彩校正和音频集成的其他可能。

相机2和/或预览单元和/或与捕获系统相关联的另一单元存储视频以及空间12出现在视频流中的时间、空间12出现的位置以及任何所需的附加信息有关的视频信息，例如，对于视频中的每个相关点而言：相机的姿势/方向、正在使用的镜头、焦距、正在使用的白平衡。还可以存储空间12的类型，例如指示空间12是否可以容易地表示广告牌、货车、公共汽车候车亭或其他替代实体。因为该信息与视频一起被存储，所以要用备选内容替代空间12的后期制作系统可以容易地找到视频中可以替代内容的位置，容易地为这样的空间选择替代内容并且容易地以允许该内容看起来出现在最初拍摄的视频中的方式来替代内容。可以添加元数据，例如捕获时间和捕获位置。

预览单元使用连接装置22将捕获的视频流传输到存储单元3。传输的信息包括：

1.捕获的视频流或通过预览单元改编的捕获流。这被示为数据框30。

2.指示关于空间12在传输的视频流中出现的时间、身份、位置、大小、形状和/或颜色的信息的元数据。元数据还可以指示发送的视频流是否包括空间12中的元素。这被示为框31。时序信息可以指示在视频流空间12或另一个类似空间中的哪些点是可见的。身份信息可以指示要在空间中描绘什么类型的对象。这可以从输入端子26得到或可以自动确定。元数据还包括关于图形相对于相机的位置或相对于相机已知的另一个参考位置的信息。这在了解相机方向视野的情况下允许估计视频流中的图形位置。

为了形成表示替代对象的覆盖物，预览单元可以将一系列对象的图像存储在存储器25中。然后预览单元可以变换所选择的存储图像的形状和颜色，并将经变换的图像叠加在捕获的视频上以形成改编视频流。

可以向捕捉视频或设置场景1的操作员提供指示空间12的优选位置的指南。可以选择这些指南以允许对空间12的定位的灵活性，从而易于限定空间、比如空间12对于正在形成的视频流长度的足够比例，或者使空间适于改编以包含所需的内容、比如广告。该指南可以就以下可替代空间12如何在视频中出现的一个或更多个方面提供建议：

-空间12相对于视频视场的大小——例如，空间12可能优选占据视频视场的20％至40％、更优选25％至30％的连续区域视频；

-空间12在视频视场中的位置；

-空间12的颜色——例如，空间12可能优选为预定颜色，该预定颜色可以容易地识别以用于编辑目的，比如绿色；

-空间的纵横比——例如，如果空间将由特定对象的表示(例如公共汽车候车亭或谷物盒)替代，则方便的是该空间具有与该对象基本相同的纵横比。

播出系统4可以访问存储在数据库7中的广告，并且如果从预览单元20发送的视频流不包含覆盖物，则还可以访问合适的覆盖对象的图像。可用和/或使用的覆盖对象可能取决于系统的应用。例如：

-当系统被用于插入广告时，如果对象是传统上会承载广告的对象，则是很方便的。那么覆盖在这些对象上的广告就不会显得格格不入。示例包括广告牌、公共汽车候车亭、车辆侧面、商店标牌和品牌产品。替代性地，覆盖物可以是被广告的对象的覆盖物：例如特定型号的汽车、手表或电话。

-在系统被用于改编视频流以适应当地习俗和文化期望的情况下，如果对象的外观因地点而异，则是很方便。示例包括公共汽车、路标、品牌产品和商店标牌。

-在系统被用于改编视频流以包括本地语言文本的情况下，对象可以方便地是适当语言的文本表示。

该系统也可以用于其他用途。

当播出系统4正在对视频流进行处理以向设备6播出时，播出系统执行以下步骤：

1.如果与要播出的视频流相关联的元数据不包括指示要接收覆盖物的空间的时间和位置的信息，则播出系统4分析视频流以识别合适的空间。这可以通过训练的机器学习算法来完成。

2.播出系统在视频流中选择一个或更多个要用广告覆盖的空间。这些空间可以是视频流中所有空间的子集。在这种情况下，如果播出系统接收到的视频流尚未包含对于未选择空间而言的覆盖物，则这些未选择空间可以保持不变，这将使得场景1的原始背景出现在它们的位置；替代性地，由预览单元形成的覆盖物可以被保留或被通用图形进一步覆盖，就好像正在以下面将要描述的方式添加广告一样。

3.对于每个选择的空间，播出系统选择相应的广告。广告可以相同或不同。可以通过对每个可用广告求和出一组加权值并选择具有最高总和的广告来选择广告。这些加权值中的一个加权值可能与根据通过通道10接收的数据估计的广告对用户的适合性有关。加权值中的另一个加权值可能与广告商为包含其广告而提出的出价有关。出价可以取决于用户设备6的上下文。加权值中的另一个加权值可能与广告对于视频流围绕该广告可以插入的空间的视觉兼容性有关。在一个实施方式中，该算法可以被配置为有利于选择具有与周围区域相似颜色的广告。分析表明，这会增加用户对插入在视频中的广告的参与度。在另一个实施方式中，该算法可以被配置为有利于选择具有与周围区域形成对比的颜色的广告。

4.一旦选择了广告，播出系统便检索该广告的外观，例如作为图像文件。然后，对于视频流中包括添加广告的空间的每一帧，播出系统执行广告的变换。可用的转换可以包括：

-裁剪广告以适应相应帧中可见的空间部分。这可以由播出系统在视觉上分析该帧来确定，或者由播出系统通过使用元数据估计帧中空间的位置和形状来确定。元数据中空间的位置和形状可以根据场景1中空间位置的知识和在该帧被捕捉时相机的视场的知识来估计。这可以从元数据中获得。

-通过拉伸和/或旋转来转换广告，以对应于帧被捕捉时相机指向的方向、视差、镜头失真、透视等。所需的变换可以由播出系统在视觉上分析该帧来确定，或者由播出系统通过使用元数据估计帧中空间的位置和形状来确定。为此，播出系统可以使用有关相机指向的方向、正在使用的镜头类型及其在捕获帧时的焦距以及有关该镜头的失真特性的信息。

-更改广告的颜色以匹配帧的颜色。例如，可以根据对图像和/或接收到的元数据的分析来调整白平衡或色调。

-更改广告的照明以匹配视频中的环境条件，或使该广告成为焦点。-施加褪色或老化效果，或雾/云效果以匹配视频中描绘的环境。

-应用阴影以匹配原始视频中的阴影。

-当视频中的对象移动到空间12前面时，对广告应用间隙(gap)。

-根据对象被表示为距相机位置的距离而应用距离模糊。

-根据原始视频中的焦点和可选的来自元数据的指示正在使用的镜头的焦距和/或散景特性的信息而应用焦点模糊。

-应用一种或更多种运动模糊和遮挡模糊。

5.播出单元将变换后的图像覆盖在相应的帧上，并将该图像作为改编的视频流的帧进行存储和/或播出。

应当理解，上述步骤可以应用于除广告之外的覆盖内容。

在编辑阶段，构成编辑套件的一部分的计算机(可能是分布式计算机)可以对视频流进行处理，以使该视频流准备好用于广告的覆盖(例如，通过在视频流中插入对象)，或在流中插入覆盖物。在此之前，计算机可以对视频流进行处理以评估视频流是否适合这种处理。这可能涉及检查视频流是否包含预定的元数据或指示视频流符合一种或更多种标准化格式的标记，从而可以容易地以这种方式对流进行处理。

一个示例工作流程可以如下进行，如图3中所示。

1.例如由上述系统捕获视频流40，该流包括多个片段或场景(A-H)。这些场景中的一个或更多个场景(E)包含可以被附加内容覆盖的空间12。

2.可以对视频流进行剪辑和制作，以形成最终节目。

3.从捕获的视频40(可选地已经被编辑)形成分发视频流41。分发视频流包括要播出的节目的所有场景，分发视频流按照它们要播出的顺序，除此之外，一个或更多个片段或场景(“覆盖场景”)(E)被删节。覆盖场景(E₁-E₄)被单独存储，并且覆盖场景通常是在视频流40的捕捉期间形成的原始场景，但是已经被编辑以包括期望的覆盖物。这种编辑可以根据本文描述的任何方法。使用原始场景作为覆盖场景的基础确保了最终的广播视频流对终端用户来说看起来是单个原始视频流，而不是明显地在原始场景上添加或覆盖备选材料。一个或更多个标记41可以被插入到分发视频流41中的覆盖场景已经被移除的点处。这些标记可以与用于标记广告中断位置的传统标记相同。

3.分发视频流41被提供给向消费者流式传输或广播视频的分发者。

4.当到达标记时，分发者以通常的方式暂停分发视频流的播出，以便允许向消费者播出广告。

5.此时，广告提供商的播出系统不是播出传统广告，而是播出在分发场景的播出中在当前点被删节的覆盖场景(E₁-E₄)，覆盖场景(E₁-E₄)具有一个或更多个空间12，该覆盖场景在所述一个或更多个空间处覆盖有广告材料。删节场景(E)的各种版本(E₁-E₄)可以存储在数据库45中，使得已经预先进行了覆盖并且使得删节场景的最合适的版本可以随后被提供回分发视频流41中。广告提供者以上述方式执行覆盖。覆盖场景可以由广告提供商或通过分销商直接流式传输或广播给消费者，或者两者可以是同一实体。这可能与在步骤3中播出的流的结尾连续出现。在优选示例中，分发视频流41在被终端用户在设备6上接收之前与覆盖场景(E₁-E₄)组合。这种组合可以通过一个或更多个处理器43来实现，这些处理器43可以虚拟地定位，即定位在云5中，或者可以物理地存在。重要的是，终端用户设备6不需要额外的软件或硬件来观看组合视频，因为仅单个广播44被设备6接收到。这样，可以提高用户的享受度，因为关于不同视频流的组合的任何时间问题都在终端用户设备6接收到广播之前被解决。

6.当覆盖场景完成时，分发者恢复分发视频流的播出。这可以与步骤5中播出的流的结尾连续出现。

这种方法允许使用当前的流式传输模式播出视频流(播出的视频在适当的时间暂停以插入广告)，但在广告插播中提供的内容与主要内容是一体的。这可以增加观众的参与度和乐趣。与将个性化视频流式传输给用户的现有系统和方法不同，其中广告或其他个性化内容是对原始预期视频的补充，而本想法允许个性化成为预期视频的一部分，而不是对预期视频的附加。因此，由于使用最初创建的一个或更多个场景作为覆盖视频的基础，因此无论添加了何种个性化设置，第二个视频流的停止和重新启动之间的间隔时间始终是恒定的。因此，个性化视频流总是相同的持续时间，而与添加的广告无关。此外，由于覆盖场景E来自原始视频流40，因此省略的持续时间与覆盖视频流(E₁-E₄)相同，因此无需在覆盖视频流(E₁-E₄)结束时进行任何握手(handshake)。

此外，通过使用一个或更多个原始场景，分发视频流41与覆盖视频流(E₁-E₄)之间、即图3中的D与E之间的过渡以及然后从覆盖视频流(E₁-E₄)到分发视频流41、即图3中的E与F之间的延续可以是无缝的。由此，我们的意思是，在D与E之间的帧带处立即发生过渡，然后在E与F之间的帧带处立即发生过渡，这样对用户来说，就好像D和E或E和F已被拍摄一起。相邻流之间的声音也优选地布置成使得用户听不到不同流之间的连接。这可以通过使用句柄在相邻流之间淡入和淡出声音来实现。

上面描述了选择适当的内容作为覆盖物来应用。在任何这些方法中，都需要一些标识信息来确定应该为给定的终端用户应用什么内容。该信息可以直接来自用户，例如作为来自终端设备6的信号，或者可以来自一个或更多个视频流的分发者持有的数据，或者可以来自互联网服务提供商或托管云5或物理设备的其他公司，在向前传输到终端用户之前，视频流被提供和/或组合到云5或物理设备中。

当要对视频流进行处理以承载覆盖物时，一种选择是原始视频流包括描绘对象(例如公共汽车候车亭)的空间，并在视频流中出现该空间时将覆盖物放置在该对象上。第二种选择是原始视频流未描绘这样的对象，而是结合专用于插入该类型或预定类型集合的对象的可见空间。例如，一个平坦的地面区域可能不会被演员占据，这样公共汽车候车亭、货车或广告牌就可以插入并覆盖在那里，例如通过广告。第三种选择是分析原始视频流以识别适合插入对象的空间。这可以手动或通过计算机实现图像分析软件自动完成。可以手动选择要插入的一个或更多个对象，或者通过执行图像分析软件的计算机而自动选择要插入的一个或更多个对象。可以根据视频流中描绘的环境而自动选择要插入的一个或更多个对象。例如，如果视频流描绘了高速公路，则可以选择通常期望在这种环境中看到的诸如公共汽车候车亭或货车之类的对象来插入。这种选择可以通过经过适当训练的机器学习软件来完成。选择对象后，可以从数据库或对象库中检索此对象的图像或模型，例如作为三维模式。然后可以按照该模型中的描述插入该对象。

在上面给出的示例中，原始视频流是由相机捕获的。原始视频流可以是计算机生成的流，或者可以是由相机捕获的真实流和计算机生成的流(例如通过转描形成)的组合。视频流可以是传统(2D)视频流或3D和/或虚拟现实视频流。

申请人特此单独公开本文描述的每个单独特征以及两个或多个此类特征的任何组合，只要根据本领域技术人员的公知常识，这些特征或组合能够基于本说明书作为一个整体实施，无论这些特征或特征的组合是否解决了本文公开的任何问题，并且不限于权利要求的范围。申请人表示，本发明的各个方面可以包括任何此类单独特征或特征组合。鉴于上述描述，对于本领域技术人员来说，显而易见的是，可以在本发明的范围内进行各种修改。

Claims

1.一种用于播出视频流的方法，所述方法包括：

形成用于播出的第一视频流，所述第一视频流描绘有用于供覆盖物替换的至少一个空间；

形成用于播出的第二视频流，所述第二视频流具有与所述第一视频流对应的删节；

播出所述第二视频流；

在所述删节处停止所述第二视频流的播出；

随后，播出所述第一视频流，其中所述空间被覆盖物替换；

随后播出所述第二视频流的另外部分。

2.根据权利要求1所述的方法，其中，所述第一视频流是通过从所述第二视频流中提取一部分而形成的且被形成为不具有删节。

3.根据权利要求1或2所述的方法，还包括将不同的覆盖物替换到所述第一视频流的备选副本上以形成覆盖第一视频流的数据库。

4.根据权利要求3所述的方法，其中，每个覆盖视频流在持续时间方面是相同的。

5.根据权利要求1至4中的任一项所述的方法，其中，所述第一视频流和所述第二视频流在发送至观看者之前被组合成单个广播视频流。

6.根据前述权利要求中的任一项所述的方法，其中，第一视频流与第二视频流之间的过渡在所述第一视频流与所述第二视频流之间是没有附加视频材料的。

7.一种用于捕获视频流的方法，所述方法包括将由相机捕获的视频与对预先指定的替换对象在所述视频中出现的位置进行指示的元数据一起存储。

8.一种用于捕获视频流的系统，所述系统包括：

相机；以及

编码设备，所述编码设备被配置为将由所述相机捕获的视频以及对预先指定的替换对象在所述视频中出现的位置进行指示的元数据进行存储。

9.根据权利要求68所述的系统，其中，所述元数据指示在所述视频期间出现所述替换对象的时间。

10.根据权利要求8或9所述的系统，其中，所述元数据指示所述视频的随时间流逝而被所述替换对象占据的区域。

11.根据权利要求8至10中的任一项所述的系统，其中，所述元数据指示所述替换对象的大小和形状。

12.根据权利要求8至11中的任一项所述的系统，其中，所述元数据指示：在所述替换对象出现在所述视频中时的一个或更多个时间处，所述相机的镜头的一个或更多个特性。

13.根据权利要求8至12中的任一项所述的系统，其中，所述元数据指示：在所述替换对象出现在所述视频中时的一个或更多个时间处，所述视频的一个或更多个颜色特性。

14.根据权利要求8至13中的任一项所述的系统，其中，所述系统包括输入设备，用户能够通过所述输入设备将所述元数据中的至少一些元数据输入到所述系统。

15.一种用于处理视频以用备选内容替代所述视频中的可替换内容的系统，所述系统包括处理器，所述处理器被配置为：

对与所述视频相关联的元数据进行处理，以识别所述视频中的出现所述可替换内容的区域；

根据所述元数据从存储有备选内容的数据存储中选择备选内容项；以及

对所述视频进行处理，以用根据所述备选内容形成的替换内容来替代所述视频的由所述元数据限定的区域。

16.根据权利要求15所述的系统，其中，所述元数据指示在所述视频中出现所述可替换内容时相机的捕获所述视频的姿势，并且所述处理器被配置为根据所指示的姿势使所述备选内容在空间上失真以形成所述替换内容。

17.根据权利要求15或16中的任一项所述的系统，其中，所述元数据指示在所述视频中出现所述可替换内容对象时相机的镜头的一个或更多个特性，并且所述处理器被配置为根据所指示的镜头特性使所述备选内容在空间上失真以形成所述替换内容。

18.根据权利要求15至17中的任一项所述的系统，其中，所述元数据指示在所述视频中出现所述可替换内容时所述视频的一个或更多个颜色特性，并且所述处理器被配置为根据所指示的镜头特性使所述备选内容在色彩上失真以形成所述替换内容。

19.一种用于对视频流进行处理以用备选内容替代所述视频流中的可替换内容的方法，所述方法包括：

对与所述视频流相关联的元数据进行处理，以识别所述视频流中的出现所述可替换内容的区域；

对所述视频流进行处理，以用根据所述备选内容形成的替换内容来替代所述视频流的由所述元数据限定的区域。

20.根据权利要求19所述的方法，包括：对所述视频流进行处理，以确定所述视频流是否包含指示所述视频流符合一种或更多种标准格式的数据，以及仅在所述视频流包含符合一种或更多种标准格式的所述数据的情况下，替代根据权利要求14所述的视频流的区域。

21.一种用于对视频流进行处理以用备选内容替代所述视频流中的可替换内容的方法，所述方法包括：

使用被编程为实现图像识别算法的计算机来对所述视频流进行处理，以在所述视频流中识别出具有包含一个或更多个预定对象的倾向的环境的描述；

从数据存储中检索所述预定对象中的一个预定对象的模型；以及

对所述视频流进行处理，以用根据检索到的所述模型形成的替换内容来替代所述视频流的描述所识别的环境的区域。