CN113557522A

CN113557522A - 基于相机统计的图像帧预处理

Info

Publication number: CN113557522A
Application number: CN202080020602.7A
Authority: CN
Inventors: N·萨姆普迪; L-P·布雷特; C·P·拉森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-03-11
Filing date: 2020-03-02
Publication date: 2021-10-26
Also published as: EP3921769A1; WO2020185432A1; US11893791B2; US20200293782A1

Abstract

本公开涉及用于基于相机统计来选择性地从输入视频标识图像帧以提供给图像处理模型的系统、方法和计算机可读介质。例如，本文公开的系统包括从视频捕获设备接收输入视频和相关联的相机统计。本文公开的系统还包括基于相机统计并且基于图像处理模型的应用来标识选择图像帧以提供给图像处理模型。本文公开的系统还包括选择性地标识相机统计并将其提供给图像处理模型。通过基于相机统计选择性地向图像处理模型提供数据，本文公开的系统可以利用视频捕获设备的能力，以在利用各种图像处理模型时显著降低处理资源的支出。

Description

基于相机统计的图像帧预处理

背景技术

近年来，使用计算设备(例如，移动设备、个人计算机、服务器设备)来捕获、存储和编辑数字媒体的数量急剧增加。确实，现在电子设备以各种方式捕获并且处理数字媒体是很常见的。例如，常规媒体系统通常包括用于处理数字媒体的各种应用或工具。这些媒体处理应用在处理图像和视频方面提供了广泛的用途。

尽管如此，虽然媒体处理应用为分析数字媒体和生成有用输出提供了有用的工具，但是这些应用和工具包括各种问题和缺点。例如，许多媒体处理应用效率低下和/或消耗大量处理资源来有效操作。确实，随着视频捕获设备捕获和存储比以往更高质量的图像，常规应用需要大量的计算资源和处理时间来成功执行应用。举例来说，利用机器学习技术的媒体处理应用可能耗尽客户端计算设备的处理能力，并且导致大量的云计算支出。此外，常规的媒体处理应用可能花费大量时间来产生期望的结果。

关于使用各种应用和软件工具来分析和处理数字媒体方面存在这些和其他问题。

附图说明

图1示出了根据一个或多个实现的包括基于统计的视频预处理系统的示例环境。

图2A示出了根据一个或多个实现的用于标识图像帧并且向图像处理模型提供该图像帧的示例过程。

图2B示出了根据一个或多个实现的用于标识图像帧和相机统计并且向图像处理模型提供该图像帧和相机统计的示例过程。

图3示出了根据一个或多个实现的用于从多个视频馈送选择性地标识和提供图像帧的示例过程。

图4示出了根据一个或多个实现的用于变换视频内容并且向图像处理模型提供图像帧的子集的示例工作流。

图5示出了根据一个或多个实现的包括基于统计的视频预处理系统的示例计算设备的示意图。

图6示出了根据一个或多个实现的选择性地向图像处理模型提供图像帧的示例方法。

图7示出了根据一个或多个实现的标识图像帧和相机统计并且向图像处理模型提供该图像帧和相机统计的另一示例方法。

图8示出了可以被包括在计算机系统内的某些组件。

具体实施方式

本公开涉及结合图像处理模型实现的基于统计的视频预处理系统(或简称为“预处理系统”)。具体而言，如下面将进一步详细讨论的，预处理系统可以从一个或多个视频捕获设备接收输入视频。预处理系统还可以标识针对输入视频的内容(或简称为“输入视频内容”)的相机统计，以确定在向图像处理模型提供一个或多个图像帧之前要对输入视频内容执行的一个或多个操作，该图像处理模型可以包括深度学习模型。

举例来说，预处理系统可以鉴于也从相机设备接收到的相机统计来分析从相机设备接收到的输入视频内容。具体而言，预处理系统可以利用相机统计(诸如相机焦点的测量、白平衡、光照条件、检测到的对象，或者由视频捕获设备获取的其他统计)来从输入视频中标识图像帧的子集，以馈送给图像处理模型。例如，预处理系统可以基于相机统计选择性地标识图像帧的子集，以产生更准确或更有用的输出，以及当将图像处理模型应用于图像子集时利用更少的处理资源。

除了从输入视频中标识图像并且向图像处理模型提供图像之外，预处理系统还可以向图像处理模型提供由视频捕获设备获取的相机统计。在图像处理模型基于图像和相关联的相机统计训练被处理的情况下，图像处理模型可以基于图像处理模型的特定应用或功能更准确和/或有效率地生成有用的输出。除了使图像处理模型能够准确且有效率地生成有用输出之外，根据本文描述的一个或多个实现来预处理输入视频使得各种类型的图像处理模型能够处理数据并生成有用输出，同时比常规媒体处理系统利用更少的资源。

本公开包括提供益处和/或解决与分析和处理图像相关联的问题的许多实际应用。例如，如上所述，通过从输入视频内容智能地选择图像帧的子集，预处理系统使得图像处理模型能够基于图像处理模型的特定应用或功能更有效率地生成输出，同时使用更少的处理资源。此外，通过以各种方式预处理输入视频内容，预处理系统类似地增强了图像处理系统的效用，同时减少了处理资源的消耗。

另外，通过基于相机统计标识图像帧和预处理视频内容，预处理系统可以利用使用视频捕获设备的内置功能很容易可得的信息。具体而言，在视频捕获设备已经使用相机统计来精化视频片段镜头(footage)并且生成输入视频的情况下，预处理系统可以利用这些统计来以更有效率的方式策略性地将图像数据馈送到图像处理模型。另外，预处理系统可以使将从视频捕获设备所获取的相机统计作为输入被提供给图像处理模型，以增强图像处理模型对于许多不同应用的功能性和准确性。

如前述讨论所示，本公开利用各种术语来描述预处理系统的特征和优点。现在将提供关于这些术语含义的附加细节。例如，如本文所使用，“视频捕获设备”是指能够捕获视频片段镜头并且生成输入视频内容的电子设备。视频捕获设备可以指与计算设备通信的独立设备。备选地，视频捕获设备可以指被集成在计算设备内的相机或其他视频捕获设备。在一个或多个实现中，视频捕获设备捕获视频片段镜头(例如，未精化的或原始视频内容)，并且利用任意数目的相机统计来精化视频片段镜头，以生成包括多个图像帧(例如，表示视频的多个图像)的输入视频，该输入视频可以包括根据相机统计的经精化的视频。

如本文所使用，“相机统计”是指与捕获视频片段镜头和生成输入视频内容相关联的各种度量和测量。相机统计可以指由视频捕获设备和/或在视频捕获设备上运行的应用获取或生成的任何特征或测量。例如，相机统计可以指相机捕获设备的规格和特征，诸如由视频捕获设备捕获的图像的分辨率、检测到的设备移动和/或与捕获视频片段镜头结合使用的一个或多个镜头的配置(例如，变焦、定向)。除了与设备相关的特征之外，相机统计可以指与视频捕获设备上运行的一个或多个应用所执行的用于变换、精化或以其他方式修改图像的操作相关联的启发式数据。例如，相机统计可以指焦点测量、白平衡测量、光照条件、场景检测统计、对象的检测、或者视频捕获设备上的一个或多个应用能够标识并且向预处理系统提供的其他度量。此外，在一个或多个实施例中，相机统计可以包括视频内容的特征或特性。例如，相机统计可以包括内容特性，诸如组成视频内容的个体图像帧的分辨率、视频内容的帧速率(例如每秒帧数)和/或图像帧的显示比率。

如上所述，预处理系统可以向图像处理模型提供视频帧(例如，视频帧的子集、经变换的视频帧)。如本文所使用，“图像处理模型”是指被训练为基于一个或多个输入图像帧来生成输出的任何模型。图像处理模型可以指计算机算法、分类模型、回归模型、图像变换模型、或者具有对应应用或已定义功能性的任何类型的模型中的一个或多个。另外，图像处理模型可以指深度学习模型，诸如神经网络(例如，卷积神经网络、递归神经网络)或者被训练为基于输入图像执行各种应用的其他机器学习架构。在一个或多个实现中，图像处理模型被训练为基于输入图像和相关联的相机统计两者来生成输出。

如本文所使用，图像处理模型的“输出”可以指基于图像处理模型的类型或者由图像处理模型实现的应用的任何类型的输出。例如，在图像处理模型指分类模型的情况下，图像处理模型的输出可以包括一个或多个图像的分类，诸如是否检测到面部、与面部相关联的个体的标识、(多个)图像内的对象的标识、图像或视频的评级，或者一个或多个图像帧的任何其他分类。作为另一示例，在图像处理模型包括快速读取(QR)码或条形码读取应用的情况下，输出可以指输出图像，该输出图像包括QR码、条形码的清楚表示和/或从具有所显示代码的(多个)图像被提取的经解码的值。作为进一步的示例，在图像处理模型包括光学字符识别(OCR)应用的情况下，输出可以包括文本数据、字符数据、或者基于分析被提供给图像处理模型的图像内容所生成的其他数据。实际上，应当理解，输出可以指基于一个或多个输入参数(例如，图像、相机统计)所生成的与多个应用和处理模型对应的任何期望输出。

现在将结合描绘示例实现的说明性附图提供关于预处理系统的附加细节。例如，图1示出了用于预处理输入视频以标识图像帧并且向图像处理模型提供图像帧的示例环境100。如图1所示，环境100包括一个或多个服务器设备102，服务器设备102包括图像处理模型104。另外，环境100包括计算设备106，计算设备106包括基于统计的视频预处理系统108(或简称为“预处理系统108”)。环境100还包括视频捕获设备110。

如图1所示，(多个)服务器设备102和计算设备106可以通过网络112直接或间接与彼此通信。网络112可以包括一个或多个网络，并且可以使用适合于传输数据的一个或多个通信平台或技术。网络112可以指使得能够在环境100的设备和/或模块之间传输电子数据的任何数据链路。网络112可以指硬连线网络、无线网络、或者硬连线和无线网络的组合。在一个或多个实施例中，网络112包括互联网。

计算设备106可以指各种类型的计算设备。例如，计算设备106可以包括移动设备，诸如移动电话、智能手机、个人数字助理(PDA)、平板电脑或膝上型电脑。附加地或备选地，计算设备106可以包括非移动设备，诸如台式计算机、服务器设备或其他非便携式设备。(多个)服务器设备102可以类似地指各种类型的计算设备。计算设备106和(多个)服务器设备102中的每个设备可以包括下面结合图8描述的特征和功能性。

此外，视频捕获设备110可以指能够捕获视频片段镜头并且向预处理系统108提供所生成的输入视频和相关联的相机统计的任何类型的相机或其他电子设备。在一个或多个实施例中，视频捕获设备110是独立的数字相机或包括视频捕获能力的其他视频捕获设备。备选地，在一个或多个实施例中，视频捕获设备110被集成在计算设备106内。

如下面将进一步详细讨论，视频捕获设备110可以捕获视频片段镜头，并且将多个相机统计应用于视频片段镜头，以生成具有多个图像帧的输入视频。例如，在捕获视频片段镜头的同时，视频捕获设备110可以聚焦图像、调整白平衡，并且应用一个或多个设置来补偿光照或者其他周围环境条件。另外，视频捕获设备110可以使用各种工具来分析所捕获的内容，以检测场景、检测对象、或者以其他方式标识视频片段镜头内的特定类型的内容。此外，视频捕获设备110可以对所捕获的内容执行一个或多个操作，包括例如将多个视频帧融合在一起或者增强视频内容的一个或多个所捕获的帧。

视频捕获设备110可以基于相机统计向计算设备106提供输入视频内容以供预处理。例如，在使用各种相机统计来精化所捕获的视频片段镜头之后，视频捕获设备110可以向计算设备提供视频内容以供进一步处理。在一个或多个实施例中，当视频捕获设备110捕获并且精化视频片段镜头时，视频捕获设备110提供视频流(例如，实况视频流)。备选地，视频捕获设备110可以向计算设备106提供视频文件。

除了向计算设备106提供输入视频内容之外，视频捕获设备110还可以向计算设备106提供任何数目的相机统计。例如，视频捕获设备110可以提供在捕获和生成输入视频内容时所获取的所有相机统计的集合。相机统计可以包括对应视频内容的相机统计的文件。备选地，视频捕获设备110可以提供相机统计作为数字视频文件的一部分(例如，作为视频文件的元数据)。在一个或多个实施例中，当视频捕获设备110向计算设备106提供输入视频时，视频捕获设备110提供与输入视频内容的相应帧相关的相机统计。

如上所述，并且如将通过下面的示例进一步详细讨论，取决于输入视频的特性以及视频捕获设备110的特征和能力，相机统计可以包括任何数目的不同统计。例如，视频捕获设备110可以获取并且提供相机统计，包括聚焦图像的图像帧的指示(或关于各种图像帧的聚焦度量)、关于一个或多个图像帧的白平衡的指示、由视频捕获设备110检测到的光照条件的度量、哪些图像帧对应于场景变化的标识，构成视频内容的图像帧的分辨率、视频内容的帧速率(例如，输入视频内容的每秒帧数)、对象和出现一个或多个对象的相关联的帧的标识，以及关于在生成输入视频时将多个图像帧合并在一起的信息。

在一个或多个实施例中，预处理系统108标识一个或多个相机统计，用于标识图像帧以向图像处理模型104提供。例如，预处理系统108可以从视频捕获设备110所提供的所有相机统计的合集标识相机统计的一部分或子集。预处理系统108可以基于图像处理模型104的应用来标识相关的相机统计。作为另一示例，预处理系统108可以基于哪些图像帧被提供给图像处理模型104来标识相机统计(下面讨论)。

如下面将进一步详细讨论，预处理系统108可以标识图像帧和相机统计，以向图像处理模型104提供。例如，预处理系统108可以从表示输入视频的所有帧的多个图像帧标识图像帧的子集，以作为输入提供给图像处理模型104。作为另一示例，预处理系统108可以对输入视频执行附加处理，以生成一个或多个经变换或以其他方式被修改的图像帧，以作为输入提供给图像处理模型104。作为进一步的示例，与向图像处理模型104提供对应的图像帧结合，预处理系统108可以标识要向图像处理模型104的任何相机统计。

在接收到模型输入数据(例如，图像帧、相机统计)后，图像处理模型104可以将图像处理模型104的一个或多个应用和/或算法应用于输入图像帧(和/或相机统计)以生成输出。例如，图像处理模型104可以基于图像处理模型104的训练来生成一个或多个分类、输出图像、解码数据、被提取的文本或其他输出，以生成所期望的输出。

虽然图1示出了包括特定数目和布置的(多个)服务器设备102、计算设备106和视频捕获设备110的示例环境100，但是应当理解，环境100可以包括任何数目的设备，包括在相同的设备网络上和/或跨多个设备所实现的图像处理模型104和预处理系统108，如图1所示。例如，在一个或多个实施例中，图像处理模型104在包括(多个)服务器设备102的云计算系统上被实现。备选地，在具有单个计算设备的模块或内部组件之间的通信的情况下，图像处理模型104可以在边缘设备和/或与预处理系统108和/或视频捕获设备110相同的设备上被实现。

转到图2A，图2A示出了根据一个或多个实施例的用于选择性地标识图像帧以向图像处理模型104提供的示例框架。例如，如图2A所示，视频捕获设备110可以捕获视频片段镜头202。视频片段镜头202可以包括在可见光谱中所捕获的视觉数据，诸如红、绿、蓝(RGB)数据，或者在不可见光谱中所捕获的视觉数据，诸如红外数据。视频片段镜头202还可以包括深度数据。视频捕获设备110可以基于视频捕获设备110的规格和能力来捕获片段镜头并且生成具有特定帧速率和分辨率的视频内容。另外，视频捕获设备110可以基于视频捕获设备的规格和能力来捕获片段镜头并且生成具有特定显示比率的视频内容。

视频捕获设备110可以基于输入视频片段镜头202来生成输入视频204。具体而言，视频捕获设备110可以通过变换、精化或以其他方式修改传入的视频片段镜头202来生成输入视频204。在处理视频片段镜头以生成输入视频204时，视频捕获设备110可以跟踪或以其他方式收集多个相机统计，诸如视频捕获设备110的规格和特征、关于在生成输入视频204时对视频片段镜头202进行的变换或其他修改的启发式数据，以及构成输入视频204的图像帧内的内容(例如，检测到的对象、场景变化)的标识。另外，视频捕获设备110可以标识诸如深度数据、镜头类型(例如，鱼眼镜头)或各种简单标量(例如，曝光、ISO测量、中心的聚焦质量)的相机统计。视频捕获设备110可以进一步标识诸如向量的度量(例如，原色的饱和度、视口的多个区域中的焦点测量)。视频捕获设备110可以进一步标识空间地图(例如，深度质量)。

如图2A所示，视频捕获设备110可以向预处理系统108提供输入视频204和相关联的相机统计206两者。预处理系统108可以执行与输入视频204和相机统计206相关联的多个动作。例如，预处理系统108可以标识与图像处理模型104的特定应用相关的相机统计206的子集。例如，在图像处理模型包括被训练为标识或分类数字图像内所示的各种类型的对象的深度学习模型的情况下，预处理系统108可以选择性地标识与图像清晰度相关联的相机统计(例如，聚焦统计)以及与包括一个或多个检测到的对象的帧的标识相关联的相机统计，以进一步分析或处理输入视频204的图像帧。

预处理系统108可以利用从视频捕获设备110所提供的已标识的统计来从输入视频204的多个图像帧标识图像帧208的子集。具体而言，使用相机统计，预处理系统108可以选择性地标识图像帧208的子集，该子集包括基于相关联的相机统计而包括聚焦的图像和/或包括检测到的对象的图像，这些图像会在将图像帧和/或图像帧中示出的内容分类时向图像处理模型104提供更有用的数据。

预处理系统108可以选择任意数目的图像帧来向图像处理模型104提供。在一个或多个实施例中，预处理系统108基于计算设备(例如，服务器设备102)以特定帧速率应用图像处理模型104的能力来标识图像帧的数目。例如，在图像处理模型104能够每秒分析两个图像帧的情况下，与(多个)服务器设备102能够每秒将图像处理模型104应用于十个图像帧的情况相比，预处理系统108可以向图像处理模型104提供更少的图像帧。

作为另一示例，预处理系统108可以基于图像处理模型104的复杂性和应用来标识图像帧的数目或图像帧的速率。例如，与图像处理模型104更复杂(例如，复杂神经网络或深度学习模型)的情况相比，预处理系统108可以向不太复杂的图像处理模型104(例如，简单算法)提供更大数目或速率的图像帧用于分析。在一个或多个实施例中，预处理系统108基于包括图像处理模型104的计算设备的处理能力并且基于图像处理模型104的复杂性和/或图像处理模型104的应用来确定要向图像处理模型104提供的图像帧的速率或数目。

在标识要向图像处理模型104提供的图像帧208的子集时，预处理系统108可以基于与输入视频的相应部分对应的相机统计，针对输入视频204的不同部分或持续时间，以对应的帧速率来标识视频帧。例如，在输入视频204的第一部分与指示来自第一部分的图像帧失焦或者不包括在其中检测到的对象或移动的相机统计206相关联的情况下，预处理系统108可以以低帧速率来从第一部分标识一个或多个视频帧。实际上，因为模糊图像和/或包括冗余内容的图像的内容可能会提供不太有用或冗余的数据来供使用图像处理模型104分析，所以预处理系统108可以提供较少的图像帧(例如，输入视频204的每五秒一帧)作为对图像处理模型104的输入，以避免浪费实现图像处理模型104的计算设备的处理资源。

作为进一步示例，在输入视频204的第二部分与指示来自第二部分的图像帧聚焦和/或包括在其中检测到的对象或移动的相机统计206相关联的情况下，预处理系统108可以以比第一部分(其中图像失焦和/或不包括检测到的对象)高的帧速率来从第二部分标识图像帧。因为聚焦的图像和/或包括在其中检测到的对象的图像的内容可能提供更有用的结果和/或非冗余数据来供使用图像处理模型104分析，预处理系统108可以提供更高数目或速率的图像帧(例如，输入视频204的每秒2-10帧)作为对图像处理模型104的输入，因为这些帧比来自输入视频204的其他部分的图像帧更可能包括有用的数据。

如图2A所示，图像处理模型104可以生成包括各种值和/或图像的输出210。例如，如上所述，取决于图像处理模型104的训练或应用，输出210可以包括图像的分类、与图像相关联的值、关于图像的信息、经变换的图像、或者与视频捕获设备110所捕获和生成的输入视频204相关联的任何其他输出。输出210可以被提供给计算设备106以供存储、显示或进一步处理。

图2B示出了根据本文描述的一个或多个实施例的另一示例框架，该框架包括标识并且提供图像帧和相关统计作为对图像处理模型104的输入。具体而言，类似于图2A，视频捕获设备110可以捕获视频片段镜头212。视频捕获设备110可以类似地生成输入视频214(例如，输入视频内容)，包括多个图像帧和与输入视频214相关联的相机统计216。视频捕获设备110可以向预处理系统108提供输入视频214和相关联的相机统计216两者，如以上结合图2A所讨论。

预处理系统108可以利用相机统计216来生成经变换的视频内容218。例如，预处理系统108可以通过进一步精化图像帧、修改颜色或亮度、对图像帧的分辨率进行下采样或者以其他方式修改输入视频214来修改来自输入视频214的内容。在一个或多个实施例中，预处理系统108基于结合输入视频214所接收的相机统计216来变换输入视频214。预处理系统108还可以基于图像处理模型104的应用来变换输入视频214。例如，在图像处理模型104实现QR码读取算法的情况下，预处理系统108可以通过进一步增强、去除颜色、裁剪无关内容或者以其他方式修改包括检测到的QR码图像的图像帧来变换视频内容204，特别是在该修改使得图像处理模型104能够更准确或更有效率地解码或破译(多个)图像帧内所包括的QR码的情况下。

除了向图像处理模型104提供经变换的视频内容218之外，预处理系统108还可以提供一个或多个所标识的相机统计220作为对图像处理模型104的输入。例如，如上所述，预处理系统108可以标识包括由视频捕获设备110结合输入视频214所提供的相机统计216的子集的相机统计220。具体而言，预处理系统108可以标识与所选择或经变换的图像帧(例如，经变换的视频内容218的图像帧)相关的和/或基于图像处理模型104自身的应用的那些相机统计。

除了视频内容218(例如，经变换的图像或视频内容)之外，通过向图像处理模型104提供所标识的统计220，预处理系统108可以提供附加的输入信息，该输入信息使得图像处理模型104能够更有效率或者更准确地生成所期望的输出222。图像处理模型104可以基于被提供给图像处理模型104的统计220来选择最佳地适合于处理经变换的视频内容218的特定算法。另外，图像处理模型104可以修改被应用于经变换的视频内容218的一个或多个算法，以基于所标识的统计220来更有效率或更有效地分析选择视频内容218。以这种方式，即使在经变换的视频内容218包括重复的图像的情况下，或者预处理系统108尚未如上面结合图2A所讨论的那样选择性地标识图像帧的情况下，图像处理模型104仍然可以确定或标识最相关的图像帧，以用于将图像处理模型104的一个或多个算法应用于经变换视频内容218。

虽然图2A和图2B示出了被选择并且被提供给图像处理模型104的不同输入，但是应当理解，结合图2A所讨论的特征和功能性可以与结合图2B所讨论的特征和功能性组合应用(反之亦然)。例如，关于图2A，除了图像帧208的所选子集之外，预处理系统108还可以向图像处理模型104提供与图像帧208的子集相关联的被标识的相机统计。作为关于图2B的另一示例，预处理系统108可以标识经变换的图像帧208的子集，以除了所标识的相机统计220之外还向图像处理模型104提供经变换的图像帧208的子集，从而进一步增强图像处理模型104的功能性，同时通过比从视频捕获设备110所提供的输入视频214低的帧速率的图像帧来保留处理资源。

图3示出了用于预处理来自多个视频捕获设备的视频数据和相关联的相机统计的预处理系统108的另一示例实现。具体而言，图3示出了一个示例框架，其中多个视频捕获设备302a-302c使用不同的硬件来捕获视频片段镜头304a-304c。另外，视频捕获设备302a-302c可以生成输入视频306a-306c和用于生成针对相应的视频捕获设备302a-302c的对应输入视频306a-306c的相关联的相机统计308a-308c。捕获视频片段镜头304a-304c并且提供输入视频306a-306c和相关联的相机统计308a-308c可以包括与以上结合如图2a所示的捕获视频片段镜头202以及生成并且提供输入视频204和相关联的相机统计206所讨论的特征类似的特征。

预处理系统108可以基于相关联的相机统计308a-308c类似地预处理来自视频捕获设备302a-302c的输入视频306a-306c，以标识要提供给图像处理模型104的图像帧310的子集。例如，预处理系统108可以选择性地标识来自输入视频306a-306c中的每个输入视频的图像帧，以使得图像处理模型104能够有效地生成针对多个视频306a-306c的输出312。作为另一示例，在输入视频306a-306c是指从视频捕获设备302a-306c同时被提供的输入视频流的情况下，预处理系统108可以选择性地标识来自多个输入视频306a-306c中的单个输入视频的图像帧，该单个输入视频的图像帧(例如，基于针对单个输入视频的相机统计)被确定以包括用于产生比其他输入视频更有用的输出222的内容。

在一个或多个实施例中，预处理系统108不提供输入视频306a-306c的图像帧，直到相机统计308a-308c指示输入视频306a-306c可能包括图像处理模型104可以用于生成输出312的感兴趣内容为止。例如，在相机统计308a-308c指示输入视频306a-306c内没有移动或检测到的对象的情况下，预处理系统108可以确定从输入视频306a-306c中的任何视频发送零个图像帧，直到在输入视频306a-306c内检测到移动或其他对象为止。

作为说明性示例，在视频捕获设备302a-302c是指同时捕获输入视频流并将其提供给预处理系统108的安全视频捕获设备302a-302c的网络的情况下，预处理系统108可以基于图像处理模型104的应用来使用由视频捕获设备302a-302c中的每个视频捕获设备提供的相机统计308a-308c以标识输入视频306a-306c中的哪个输入视频包括感兴趣内容(例如，被标识的个体、动物或其他对象)。在预处理系统108标识出第一视频306a在一个时间段内包括检测到的个体或运动的情况下，预处理系统108可以从该时间段期间的第一视频306a选择要提供给图像处理模型104的图像帧310的子集，同时丢弃相同时间段的来自第二和第三输入视频306b–306c的图像帧。预处理系统108可以类似地基于随着时间和随着感兴趣内容在相应的输入视频306a-306c内被检测到的不同时间段改变的相机统计308a-308c在标识来自不同视频306a-306c的图像帧310的子集之间切换。

作为进一步的示例，在视频捕获设备302a-302c选择性地一次向预处理系统108提供一个输入视频的情况下，预处理系统108可以响应于检测到的场景变化(例如，输入视频流之间的切换)来标识图像帧并将其提供给图像处理模型104。例如，预处理系统108可以基于针对不同输入视频的相机统计的变化(例如，白平衡的变化、焦距的变化)来检测场景变化。预处理系统108可以通过快速向图像处理模型104提供几个图像帧来将新场景分类而对检测到的场景变化进行响应，之后预处理系统108可以等待直到检测到新场景为止，然后才向图像处理模型104发送附加的图像帧。

如图3所示，图像处理模型104可以基于图像处理模型104的应用来生成输出312。例如，在包括多个安全相机的示例实现中，图像处理模型104可以包括面部计数器、面部标识器、或者用于标识关键图像的应用，该关键图像包括在其中检测到的个体或其他对象的有用表示。实际上，类似于本文讨论的一个或多个实现，图像处理模型104可以取决于对图像处理模型104的训练来生成各种类型的输出，以达成特定的应用。

图4示出了用于标识图像帧以作为输入提供给图像处理模型104、并且基于图像处理模型104的应用来生成输出的示例过程。例如，如图4所示，预处理系统108可以执行从视频捕获设备(例如，视频捕获设备110)接收视频内容(例如，输入视频)和相关联的相机统计的动作402。视频内容可以包括一个或多个数字视频文件，包括输入视频和相关联的相机统计。在一个或多个实施例中，视频内容包括从(多个)视频捕获设备实时被提供的视频内容的一个或多个传入流以及相关联的相机统计。

在一个或多个实施例中，预处理系统108执行基于相机统计来标识视频内容内的感兴趣内容的动作404。例如，预处理系统108可以从输入视频内容标识图像帧的集合，这些图像帧已经通过相机统计被标识为质量较高(例如，聚焦、良好的光照条件)。作为另一个示例，预处理系统108可以标识包括其内所示的一个或多个检测到的对象的图像帧。

虽然标识感兴趣内容可以包括选择性地标识包括感兴趣内容的图像帧，但是标识感兴趣内容可以包括从输入视频内容标识具有感兴趣内容的图像帧的部分。如图4所示，预处理系统108可以标识个体图像帧内对应于或多或少相关的内容的区域(例如，区域A和B)。在一个或多个实现中，预处理系统108基于图像处理模型104的应用来标识感兴趣内容。作为说明性示例，预处理系统108可以标识图像帧的包括检测到的面部或与图像处理模型104的应用或期望输出相关联的其他感兴趣内容的区域。作为另一示例，预处理系统108可以标识图像帧的前景和背景部分，并且确定前景部分对应于图像内的感兴趣内容。

如图4进一步所示，预处理系统108可以执行变换视频内容的动作406。例如，如以上一个或多个实施例中所讨论的，变换视频内容可以包括增强像素、去除颜色、调整两个输入视频流之间的亮度，或者以其他方式基于相机统计和/或图像处理模型104的应用来修改图像帧。在一个或多个实施例中，预处理系统108通过去除图像帧的不包括感兴趣内容的部分来对图像帧执行裁剪操作，从而变换视频内容。

例如，如图4所示，预处理系统108可以通过去除不包括感兴趣内容的区域来变换图像帧，以生成仅包括图像帧的包括感兴趣内容的部分的经裁剪图像。预处理系统108可以类似地变换多个图像帧以生成经变换的图像帧的集合，该经变换的图像帧的集合包括与来自输入视频内容的图像帧内的感兴趣区域相关联的经裁剪部分。

预处理系统108可以另外执行标识视频内容的子集的动作408。例如，预处理系统108可以从表示输入视频内容的多个图像帧标识图像帧子集。如图4所示，预处理系统108可以标识图像帧子集，该图像帧子集包括图像帧的对应于感兴趣内容的经标识部分。例如，在多个图像帧已经被变换为仅包括输入图像帧的经裁剪部分的情况下，预处理系统108可以标识已经被标识为包括感兴趣内容的经裁剪图像帧的子集。

虽然图4示出了预处理系统108在选择图像帧子集以向图像处理模型104提供之前首先标识感兴趣内容并且变换图像帧的示例，但是在一个或多个实施例中，预处理系统108首先标识图像帧子集，并且后续基于相机统计和图像处理模型104的应用来变换图像帧子集。例如，在一个或多个实现中，预处理系统108首先标识图像帧子集，分析图像帧子集的内容以标识感兴趣区域，并且基于所标识的感兴趣区域来裁剪图像帧子集(或以其他方式修改图像帧)。

如图4进一步所示，预处理系统108可以执行将视频内容的子集作为输入提供给图像处理模型104的动作410。在一个或多个实施例中，预处理系统108将相机统计结合视频内容子集提供给图像处理模型104。例如，预处理系统108可以标识与所标识的图像帧子集和图像处理模型104的应用相关的相机统计。

如进一步所示，预处理系统108可以执行针对视频内容子集生成输出的动作412。预处理系统108可以基于图像处理模型104的应用来生成输出。如上所述，基于图像处理模型104的各种潜在应用，输出可以包括各种输出(例如，输出图像、图像或视频分类、经解码的值)。另外，在一个或多个实施例中，输出可以基于视频内容子集和作为输入被提供给图像处理模型104的选择相机统计的组合。

现在转到图5，将提供关于预处理系统108的示例架构的组件和能力的附加细节。如图5所示以及如上结合图1所述，预处理系统108可以由计算设备106实现，计算设备106可以指各种设备，诸如移动设备(例如，智能手机、膝上型电脑)、非移动消费者电子设备(例如，台式计算机)、边缘计算设备、服务器设备或其他计算设备。根据上述一个或多个实现，预处理系统108可以基于结合由视频捕获设备生成的输入视频所接收的相机统计，选择性地向图像处理模型104提供图像帧。另外，在一个或多个实施例中，预处理系统108标识相机统计并且将其提供给图像处理模型104，以用于基于所选图像帧来生成输出。

如图5所示，预处理系统108包括相机统计标识器502、视频内容分析器504、内容变换管理器506、帧选择管理器508和数据存储装置510。数据存储装置510可以存储相机数据512和模型数据514。

如图5中进一步所示，除了预处理系统108之外，计算设备106上还可以包括图像处理模型104。具体而言，作为在一个或多个服务器设备102上(例如，在云计算系统上)被实现的图像处理模型104的备选，图像处理模型104在计算设备106上被实现，以基于由预处理系统108标识和提供的图像帧来协作地生成输出。

另外，在一个或多个实施例中，计算设备106包括在其上被实现的视频捕获设备110。例如，在计算设备106指移动设备的情况下，视频捕获设备110可以指在其上被实现的前置相机、后置相机或多个相机的组合。作为另一示例，在计算设备106包括台式计算机的情况下，视频捕获设备110可以指插入台式计算机中并且结合在计算设备106上操作的相机应用而操作的辅助设备。

如图5所示，预处理系统108包括相机统计标识器502。相机统计标识器502可以接收从视频捕获设备110接收的相机统计，该相机统计结合由视频捕获设备110生成的输入视频而被提供。另外，相机统计标识器502可以基于图像处理模型104的应用来选择性地标识相机统计中的一些或所有相机统计。例如，相机统计标识器502可以标识相关统计的集合，用于预处理输入视频。另外，相机统计标识器502可以基于图像处理模型104的对应应用来标识要提供给图像处理模型104的相关统计的集合。

预处理系统108还可以包括视频内容分析器504。例如，视频内容分析器504可以分析输入视频的图像帧，以标识输入视频的图像帧内所描绘的感兴趣内容。视频内容分析器504可以基于结合输入视频所接收的相机统计来分析输入视频的图像帧。例如，在相机统计指示选择其中描绘有一个或多个检测到的对象或运动的图像帧的情况下，视频内容分析器504可以分析那些图像帧以标识图像帧的具有检测到的对象或运动的区域或部分。

预处理系统108还可以包括内容变换管理器506。内容变换管理器506可以在向图像处理模型104提供任意数目的图像帧之前对输入视频执行多个操作。例如，内容变换管理器506可以执行诸如裁剪图像帧、平滑图像帧、组合多个图像(例如，来自后续所捕获的图像帧或从不同视频捕获设备被接收)、校正不同图像帧的亮度或聚焦问题、增强图像帧的不同部分、或者以其他多种方式修改输入视频的操作。内容变换管理器506可以基于相机统计和/或基于图像处理模型104的应用来修改图像。

如进一步所示，预处理系统108包括帧选择管理器508。帧选择管理器508可以标识视频内容的选择部分，以提供给图像处理模型104。例如，帧选择管理器508可以从标识从视频捕获设备所接收的输入视频的多个帧选择帧的子集。作为另一示例，帧选择管理器508可以选择包括所标识的感兴趣内容的帧部分(例如，经裁剪的部分)来提供给图像处理模型104。此外，帧选择管理器508可以选择性地标识经变换的图像帧以提供给图像处理模型104。

预处理系统108还可以包括数据存储装置510。数据存储装置510可以包括相机数据512。相机数据512可以包括关于与预处理系统108通信的一个或多个视频捕获设备的任何信息。例如，相机数据512可以包括设备相关的相机统计，包括关于相机规格、图像分辨率、显示比率、亮度设置、帧速率的信息，以及被存储在数据存储装置510上的关于一个或多个视频捕获设备的其他相机统计。相机数据512还可以包括关于一个或多个相机的定向的信息，以使得预处理系统108能够合并来自多个相机的图像或者更准确地分析由多个视频捕获设备捕获的视频内容。

数据存储装置510还可以包括模型数据514。模型数据514可以包括关于一个或多个图像处理模型和/或由图像处理模型执行的应用的任何信息。例如，模型数据514可以包括对应于特定应用或图像处理模型的一个或多个相关统计的标识。模型数据还可以包括预处理系统108在确定将哪些图像帧提供给一个或多个图像处理模型时可以考虑的内容类型(例如，QR码、面部)。

计算设备106的组件中的每个组件可以使用任何合适的通信技术来与彼此通信。另外，虽然计算设备106的组件在图5中被示出为是分离的，但是这些组件或子组件中的任何组件或子组件可以组合成更少的组件，诸如单个组件，或者被分成更多的组件，根据特定实现而定。

计算设备106的组件可以包括软件、硬件或两者。例如，图5所示的计算设备106的组件可以包括被存储在计算机可读存储介质上并且由一个或多个计算设备的处理器可执行的一个或多个指令。当由一个或多个处理器执行时，计算设备106的计算机可执行指令可以执行本文描述的一个或多个方法。备选地，预处理系统108的组件可以包括硬件，诸如执行某个功能或功能组的专用处理设备。附加地或备选地，计算设备106的组件可以包括计算机可执行指令和硬件的组合。

现在转到图6-图7，这些图示出了示例流程图，包括用于选择性地标识图像帧和/或相机统计以提供给图像处理模型的一系列动作。虽然图6-图7示出了根据一个或多个实施例的动作，但是备选实施例可以省略、添加、重新排序和/或修改图6-图7所示的动作中的任何动作。图6-图7的动作可以作为方法的一部分来执行。备选地，非瞬态计算机可读介质可以包括指令，这些指令当由一个或多个处理器执行时使计算设备执行图6-图7的动作。在另外的实施例中，系统可以执行图6-图7的动作。

如图6所示，一系列动作600可以包括从视频捕获设备接收输入视频内容的动作610。在一个或多个实施例中，动作610包括从一个或多个视频捕获设备接收包括多个图像帧的输入视频内容。输入视频内容可以包括已经由一个或多个视频捕获设备基于相机统计在本地精化的被捕获的视频片段镜头。

如图6中进一步所示，一系列动作600可以包括标识针对输入视频内容的相机统计的动作620。在一个或多个实施例中，动作620包括标识针对视频内容的相机统计，其中相机统计包括由一个或多个视频捕获设备结合生成视频内容而获取的数据。标识相机统计可以包括从一个或多个视频捕获设备接收相机统计集合，并且基于图像处理模型的应用来标识一个或多个相机统计。

如进一步所示，一系列动作600可以包括从输入视频内容确定图像帧子集的动作630。在一个或多个实施例中，动作630包括基于相机统计来从多个图像帧确定图像帧子集。在一个或多个实施例中，确定图像帧子集包括基于以下速率来从多个图像帧中选择图像帧：图像处理模型被配置为以该速率基于输入图像来生成输出的速率。

在一个或多个实施例中，确定图像帧子集包括基于相机统计来标识包括感兴趣内容的图像帧。标识图像帧可以包括标识第一图像帧集合，以作为输入以第一帧速率提供给图像处理模型，其中第一图像帧集合对应于视频内容的包括感兴趣内容的第一持续时间。另外，标识图像帧可以包括标识第二图像帧集合，以作为输入以第二帧速率提供给图像处理模型，其中第二图像帧集合对应于视频内容的不包括感兴趣内容的第二持续时间。基于第一图像帧集合包括感兴趣内容和第二图像帧集合不包括感兴趣内容，第二帧速率可以高于第一帧速率。

另外，一系列动作600可以包括将图像帧子集作为输入提供给图像处理模型的动作640。在一个或多个实施例中，动作640包括将图像帧子集作为输入提供给被训练为基于一个或多个输入图像来生成输出的图像处理模型。在一个或多个实施例中，图像处理模型是指深度学习模型。深度学习模型(或其他类型的图像处理模型)可以在云计算系统上被实现。附加地或作为备选，深度学习模型(或其他类型的图像处理模型)可以在从视频捕获设备接收输入视频内容的计算设备上被实现。

在一个或多个实现中，接收输入视频内容包括从多个视频捕获设备接收多个输入视频流，其中多个输入视频流包括来自多个输入视频流的图像帧。另外，相机统计可以包括由多个视频捕获设备结合生成多个输入视频流而获取的数据。此外，确定图像帧子集可以包括：基于在来自第一输入视频流的视频内容内被检测到的被标识的感兴趣内容，从多个输入视频流的第一输入视频流选择性地标识图像帧子集。另外，确定图像帧子集可以包括基于由生成第一输入视频流的视频捕获设备获取的相机统计，来从第一输入视频流选择性地标识图像帧。

如图7所示，另一系列动作700可以包括从视频捕获设备接收输入视频内容和相关联的相机统计集合的动作710。在一个或多个实施例中，动作710包括从一个或多个视频捕获设备接收输入视频内容和相机统计集合，其中相机统计集合包括由一个或多个视频捕获设备结合生成视频内容而获取的数据。在一个或多个实施例中，输入视频内容包括已经由一个或多个视频捕获设备基于相机统计数据在本地精化的被捕获的视频片段镜头。

如图7中进一步所示，一系列动作700可以包括基于图像处理模型的应用来标识针对输入视频内容的相机统计的动作720。在一个或多个实施例中，动作720包括基于图像处理模型的应用，从与视频内容子集相关联的相机统计集合来标识相机统计子集。

如进一步所示，一系列动作700可以包括将所标识的相机统计和相关联的视频内容作为输入提供给图像处理模型的动作730。在一个或多个实施例中，动作730包括将所标识的相机统计子集和相关联的视频内容子集作为输入提供给深度学习模型(或其他图像处理模型)，该深度学习模型呗训练为基于视频内容和相机统计来生成输出。将所标识的相机统计子集和相关联的视频内容子集作为输入提供给深度学习模型可以包括将视频内容的经裁剪的部分提供给深度学习模型。

在一个或多个实施例中，一系列动作700包括基于所标识的相机统计子集来变换输入视频内容。另外，向深度学习模型提供所标识的相机统计子集和相关联的视频内容子集可以包括向深度学习模型提供经变换的视频内容。

深度学习模型可以基于包括视频内容和相关相机统计的训练数据两者而被训练。另外，深度学习模型可以在从一个或多个视频捕获设备接收输入视频内容的云计算系统或计算设备中的一个或多个上实现。另外，在一个或多个实施例中，一个或多个视频捕获设备和深度学习模型在计算设备上被实现，并且耦合到系统的一个或多个处理器。

图8示出了计算机系统800内可以包括的某些组件。一个或多个计算机系统800可以用于实现本文描述的各种设备、组件和系统。

计算机系统800包括处理器801。处理器801可以是通用单芯片或多芯片微处理器(例如，高级RISC(精简指令集计算机)机器(ARM))、专用微处理器(例如，数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器801可以称为中央处理器(CPU)。尽管图8的计算机系统800中仅示出了单个处理器801，但是在备选配置中，可以使用处理器的组合(例如，ARM和DSP)。

计算机系统800还包括与处理器801电子通信的存储器803。存储器803可以是能够存储电子信息的任何电子组件。例如，存储器803可以体现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、RAM中的闪存设备、处理器所包括的板载存储器、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器等，包括其组合。

指令805和数据807可以被存储在存储器803中。指令805由处理器801可执行，以实现本文公开的一些或全部功能性。执行指令805可以涉及使用被存储在存储器803中的数据807。本文描述的模块和组件的各种示例中的任一可以部分或全部实现为被存储在存储器803中并且由处理器801执行的指令805。本文描述的数据的各种示例中的任一可以在被存储在存储器803中并且在处理器801执行指令805期间被使用的数据807之中。

计算机系统800还可以包括用于与其他电子设备通信的一个或多个通信接口809。(多个)通信接口809可以基于有线通信技术、无线通信技术或两者。通信接口809的一些示例包括通用串行总线(USB)、以太网适配器、根据电气和电子工程师协会(IEEE)802.11无线通信协议来操作的无线适配器、

无线通信适配器和红外(IR)通信端口。

计算机系统800还可以包括一个或多个输入设备811和一个或多个输出设备813。输入设备811的一些示例包括键盘、鼠标、麦克风、远程控制设备、按钮、操纵杆、轨迹球、触摸板和光笔。输出设备813的一些示例包括扬声器和打印机。计算机系统800中通常包括的一种特定类型的输出设备是显示设备815。与本文公开的实施例一起使用的显示设备815可以利用任何合适的图像投影技术，例如液晶显示器(LCD)、发光二极管(LED)、气体等离子体、电致发光等。还可以提供显示控制器817，用于将存储在存储器803中的数据807转换成显示设备815上示出的文本、图形和/或运动图像(视情况而定)。

计算机系统800的各种组件可以通过一条或多条总线耦合在一起，总线可以包括电源总线、控制信号总线、状态信号总线、数据总线等。为了清楚起见，各种总线在图8中示为总线系统819。

除非具体描述为以特定方式实现，否则本文描述的技术可以以硬件、软件、固件或其任意组合实现。描述为模块、组件等的任何特征也可以在集成逻辑设备中一起实现，或者作为分立但可互操作的逻辑设备单独实现。如果以软件实现，则这些技术可以至少部分地由包括指令的非瞬态处理器可读存储介质来实现，该指令在由至少一个处理器执行时执行本文描述的方法中一个或多个方法。指令可以被组织成例程、程序、对象、组件、数据结构等，其可以执行特定的任务和/或实现特定的数据类型，并且在各种实施例中可以根据需要而被组合或分布。

在不脱离权利要求的范围的情况下，本文描述的方法的步骤和/或动作可以彼此互换。换句话说，除非正确操作所描述的方法需要步骤或动作的特定顺序，否则在不脱离权利要求的范围的情况下，可以修改特定步骤和/或动作的顺序和/或使用。

术语“确定”包括各种动作，并且因此，“确定”可以包括计算(calculating)、计算(computing)、处理、推导、调查、查找(例如，在表格、数据库或另一数据结构中查找)、查明等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。此外，“确定”可以包括解析、选择(selecting)、选择(choosing)、建立等。

术语“包括”、“包含”和“具有”旨在是包括性的，并且意味着除了列出的元件之外，还可以存在附加元件。另外，应当理解，本公开中对“一个实施例”或“实施例”的应用不旨在解释为排除也并入所述特征的附加实施例的存在。例如，在兼容的情况下，关于本文实施例描述的任何元件或特征可以与本文描述的任何其他实施例的任何元件或特征组合。

在不脱离其精神或特征的情况下，本公开可以以其他特定形式实施。所描述的实施例应视为说明性而非限制性的。因此，本公开的范围由所附权利要求而非由前面的描述来指示。在权利要求的等同意义和范围内的变化将包含在其范围内。

Claims

1.一种方法，包括：

从一个或多个视频捕获设备接收包括多个图像帧的输入视频内容；

标识针对所述视频内容的相机统计，所述相机统计包括由所述一个或多个视频捕获设备结合生成所述视频内容而获取的数据；

基于所述相机统计从所述多个图像帧确定图像帧子集；以及

将所述图像帧子集作为输入提供给图像处理模型，所述图像处理模型被训练为基于一个或多个输入图像来生成输出。

2.根据权利要求1所述的方法，其中所述输入视频内容包括已经由所述一个或多个视频捕获设备基于所述相机统计在本地精化的被捕获的视频片段镜头。

3.根据权利要求1所述的方法，其中标识所述相机统计包括：

从所述一个或多个视频捕获设备接收相机统计集合；以及

基于所述图像处理模型的应用来标识一个或多个相机统计。

4.根据权利要求1所述的方法，其中确定所述图像帧子集包括基于速率来从所述多个图像帧中选择图像帧，所述图像处理模型被配置为以所述速率基于输入图像来生成输出。

5.根据权利要求1所述的方法，其中确定所述图像帧子集包括基于所述相机统计来标识包括感兴趣内容的图像帧，并且其中标识所述图像帧包括：

标识第一图像帧集合，以作为输入以第一帧速率提供给所述图像处理模型，所述第一图像帧集合对应于所述视频内容的包括感兴趣内容的第一持续时间；以及

标识第二图像帧集合，以作为输入以第二帧速率提供给所述图像处理模型，所述第二图像帧集合对应于所述视频内容的不包括感兴趣内容的第二持续时间。

6.根据权利要求1所述的方法，

其中接收所述输入视频内容包括从多个视频捕获设备接收多个输入视频流，所述多个输入视频流包括来自所述多个输入视频流的图像帧；并且

其中所述相机统计包括由所述多个视频捕获设备结合生成所述多个输入视频流而获取的数据。

7.根据权利要求6所述的方法，其中确定所述图像帧子集包括：基于所标识的感兴趣内容在来自所述多个输入视频流的第一输入视频流的视频内容内被检测到，从所述第一输入视频流选择性地标识所述图像帧子集。

8.根据权利要求7所述的方法，其中确定所述图像帧子集还包括：基于由生成所述第一输入视频流的视频捕获设备获取的相机统计，从所述第一输入视频流选择性地标识图像帧。

9.根据权利要求1所述的方法，其中所述图像处理模型包括深度学习模型，并且其中提供所述图像帧子集包括将所述图像帧子集提供给所述深度学习模型，所述深度学习模型是在云计算系统上被实现的。

10.根据权利要求1所述的方法，其中所述图像处理模型包括深度学习模型，并且其中提供所述图像帧子集包括将所述图像帧子集作为输入提供给所述深度学习模型，所述深度学习模型是在从所述视频捕获设备接收所述输入视频内容的计算设备上被实现的。

11.一种方法，包括：

从一个或多个视频捕获设备接收输入视频内容和相机统计集合，其中所述相机统计集合包括由所述一个或多个视频捕获设备结合生成所述视频内容而获取的数据；

基于图像处理模型的应用，从所述相机统计集合标识与视频内容子集相关联的相机统计子集；以及

将所标识的所述相机统计子集和相关联的所述视频内容子集作为输入提供给深度学习模型，所述深度学习模型被训练为基于视频内容和相机统计来生成输出。

12.根据权利要求11所述的方法，还包括基于所标识的所述相机统计子集来变换所述输入视频内容，其中将所标识的所述相机统计子集和相关联的所述视频内容子集提供给所述深度学习模型包括向所述深度学习模型提供经变换的视频内容。

13.根据权利要求11所述的方法，其中将所标识的所述相机统计子集和相关联的所述视频内容子集作为输入提供给所述深度学习模型包括向所述深度学习模型提供所述视频内容的经裁剪的部分。

14.一种系统，包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电子通信；以及

被存储在所述存储器中的指令，所述指令由所述一个或多个处理器可执行，以使计算设备：

标识针对所述视频内容的相机统计，所述相机统计包括由所述一个或多个视频捕获设备结合捕获所述视频内容所获取的数据；

基于所述相机统计从所述多个图像帧确定图像帧子集；以及

将所述图像帧子集作为输入提供给深度学习模型，所述深度学习模型被训练为基于一个或多个输入图像来生成输出。

15.根据权利要求14所述的系统，其中所述一个或多个视频捕获设备和被训练为基于所述一个或多个输入图像来生成输出的深度学习模型两者都在所述计算设备上被实现、并且耦合到所述系统的一个或多个处理器。