CN111950339A

CN111950339A - 视频处理

Info

Publication number: CN111950339A
Application number: CN202010401390.9A
Authority: CN
Inventors: M·阿克希尔
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-05-14
Filing date: 2020-05-13
Publication date: 2020-11-17
Also published as: EP3739503B1; US11954880B2; US20200364894A1; EP3739503A1

Abstract

公开了与视频处理有关的装置、方法和计算机程序产品。该装置可包括用于接收表示包括多个帧的视频内容的第一帧的数据以及在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置的构件。该装置还可包括用于基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较来确定要跳过的帧数N并用于将第N+1帧而不是所跳过的帧提供给用于将所述帧应用于图像模型的构件的构件。

Description

视频处理

技术领域

示例性实施例涉及视频处理，例如对用于提供给计算分析模型的视频帧的处理。

背景技术

机器或计算机视觉是许多新兴应用中的有趣且重要的方面。计算机视觉可涉及接收视频帧(可以但不必是实时视频帧)，以及将它们应用到计算分析模型，该计算分析模型例如可基于所接收的视频来识别特定对象或情形，并且甚至可基于分析来做出某些推断和/或决策。

发明内容

为本发明的各种实施例寻求的保护范围由独立权利要求阐明。

本说明书中所描述的没有落入独立权利要求的范围内的实施例和特征，如果有的话，将被解释为对理解本发明的各种实施例有用的示例。

根据第一方面，提供了一种装置，其包括用于执行以下操作的构件：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及将第N+1帧而不是所跳过的帧提供给用于将所述帧应用于图像模型的构件。

在第一帧中确定对象类型和位置可包括：识别第一帧中的多个对象，对于每个对象，在第一帧中确定对象类型和位置，并且其中，确定要跳过的帧数N是基于第一帧中的所有对象的相应的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较。

该构件可进一步被配置为：接收多个帧的视频内容的后续帧，以及对所述后续帧重复确定操作和提供操作。

该构件可被配置为：使用策略模型来确定要跳过的帧数N，该策略模型接收状态参数S作为输入，该状态参数S表示第一帧或任一后续帧中的一个或多个对象的相应的类型和位置。

策略模型可以是预先训练的策略模型。

策略模型可以是使用强化学习方法来预先训练的。

策略模型可以是通过使用强化学习方法和对象检测模型来训练的，其中该强化学习方法将多个训练图像作为输入，该对象检测模型用于确定多个训练图像中的关键帧，其中，该强化学习方法使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过。

对象检测模型可将关键帧确定为其中新对象出现或对象转变发生的帧。

图像模型处理构件可远离该装置。

图像模型处理构件可以是用于分析所提供的帧并用于产生推断输出的计算模型。

本文所定义的构件可包括：至少一个处理器；以及被连接到至少一个处理器的至少一个存储器。

根据另一方面，可提供一种方法，其包括：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及向视觉模型处理器提供第N+1帧而不是所跳过的帧。

根据另一方面，可提供一种非暂时性计算机可读介质，其包括在其上存储的用于执行方法的程序指令，该方法包括：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及向视觉模型处理器提供第N+1帧而不是所跳过的帧。

根据另一方面，可提供一种装置，其包括用于执行以下操作的构件：接收表示多个训练图像的数据，该训练图像表示一个或多个视频片段；确定多个训练图像中的关键帧；使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，该强化学习方法将多个训练图像作为输入并使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成经训练的策略模型。

根据另一方面，可提供一种方法，其包括：接收表示多个训练图像的数据，该训练图像表示一个或多个视频片段；确定多个训练图像中的关键帧；使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，该强化学习方法将多个训练图像作为输入并使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成经训练的策略模型。

根据另一方面，可提供一种装置，其包括至少一个处理器、直接被连接到至少一个处理器的至少一个存储器，至少一个存储器包括计算机程序代码，至少一个处理器以及至少一个存储器和计算机程序代码被配置为执行方法，该方法包括：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及向视觉模型处理器提供第N+1帧而不是所跳过的帧。

根据另一方面，可提供一种装置，其包括至少一个处理器、直接被连接到至少一个处理器的至少一个存储器，至少一个存储器包括计算机程序代码，至少一个处理器以及至少一个存储器和计算机程序代码被配置为执行方法，该方法包括：接收表示多个训练图像的数据，该训练图像表示一个或多个视频片段；确定多个训练图像中的关键帧；使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，该强化学习方法将多个训练图像作为输入并使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成经训练的策略模型。

根据另一方面，可提供一种非暂时性计算机可读介质，包括在其上存储的用于执行方法的程序指令，该方法包括：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及向视觉模型处理器提供第N+1帧而不是所跳过的帧。

根据另一方面，可提供一种非暂时性计算机可读介质，其包括在其上存储的用于执行方法的程序指令，该方法包括：接收表示多个训练图像的数据，该训练图像表示一个或多个视频片段；确定多个训练图像中的关键帧；使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，该强化学习方法将多个训练图像作为输入并使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成经训练的策略模型。

根据另一方面，可提供一种装置，其包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，该计算机程序代码在由至少一个处理器执行时使得该装置：接收表示包括多个帧的视频内容的第一帧的数据；在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置；基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及向视觉模型处理器提供第N+1帧而不是所跳过的帧。

根据另一方面，可提供一种装置，其包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，该计算机程序代码在由至少一个处理器执行时使得该装置：接收表示多个训练图像的数据，该训练图像表示一个或多个视频片段；确定多个训练图像中的关键帧；使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，该强化学习方法将多个训练图像作为输入并使用奖励函数，该奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成经训练的策略模型。

附图说明

现在将通过非限制性示例的方式参考附图来描述示例性实施例，其中：

图1是使用可根据一些示例性实施例配置的一个或多个图像捕获设备和存储器管理单元的对象的俯视图；

图2是图1中所示的存储器管理单元的示意图；

图3是使用一个或多个图像捕获设备并可根据一些示例性实施例配置的移动终端的前视图；

图4是可根据一些示例性实施例配置的虚拟现实系统的框图；

图5是示出可包括示例性实施例的处理操作的流程图；

图6是更一般地示出可包括示例性实施例的处理操作的流程图；

图7是示出可包括与训练策略模型有关的示例性实施例的处理操作的流程图；

图8A和图8B分别是视频内容的帧序列，每个帧序列示出所识别的对象，这可用于理解示例性实施例；

图9是可包括示例性实施例的组件的示意图；

图10是可存储计算机代码的非暂时性介质的平面图，该计算机代码在一个或多个处理器上执行时可使得执行本文所描述的处理操作。

具体实施方式

示例性实施例涉及视频处理，视频处理可涉及接收下文中称为“视频数据”的数据，其表示可包括一个或多个视频片段或视频节目的多个帧。视频数据可直接从捕获源接收，诸如从一个或多个摄像头接收，或者可从诸如媒体服务器的某种形式的提供系统接收。视频数据可作为流服务或者以一个或多个下载批次来接收。视频数据可表示实况视频馈送；其是实时或近实时地从捕获源接收的数据，尽管不必是这种情况。

示例性实施例可涉及在视频数据被传送到诸如提供或实现计算分析模型的一些其它视频处理系统或模块之前对其进行处理，该视频处理系统或模块接收视频数据并执行一些分析以生成推断输出和/或做出可应用于一些电子、计算机化或其它技术系统的决策。例如，该分析可涉及以下中的一个或多个：识别视频中的一个或多个对象、具体确定它们在“现实世界”中是什么、跟踪它们的运动、预测未来的运动、检测特定情况或事件(例如，危险或可疑事件)、和/或采取某种形式的行动。

参考图1，例如，在自动驾驶车辆领域中，一个或多个摄像头10可被安装在车辆11的车身上，每个摄像头捕获相应的视口12并向一个或多个管理单元13馈送所生成的视频数据，其例如表示每秒60帧的捕获视频。一个或多个管理单元13可以是一个或多个计算机化系统，其基于可本地或可能远程地以数据形式存储的计算机化模型来分析所接收的视频数据以采取行动。例如，这些行动可包括以特定速度向前或向后移动车辆、施加制动、决定如何紧急施加制动、决定向哪个方向转动车轮等。管理单元13可接收其它数据，诸如来自车载GNSS接收机的位置数据、来自远程系统的交通数据、地图数据等。基本而言，计算机化模型可确定实时或近实时地发生了什么，作为检测到视频数据中包含的特定情形的结果。情形可包括一个或多个子状态，诸如在相对于车辆的当前速度和运动向量的给定位置处检测到对象14、该对象的速度和运动向量以及对象类型。计算机化模型可使用所有这些子状态以例如确定是否紧急施加制动，例如，如果对象14是人并且可能导致碰撞；确定是否改变车辆的速度和/或方向，如果这将有助于避免碰撞；或者，确定是否什么也不做，例如，如果该对象是垃圾。

图2是根据示例性实施例的管理单元13的示意图。管理单元13可包括用于从一个或多个摄像头10接收视频数据的预处理模块20。预处理模块20的目的将在后面解释，但是概括地被配置为选择或过滤哪些视频帧要被提供给视觉计算分析模型21(下文中称为视觉模型)，该视觉计算分析模型执行在分析所提供的视频帧中涉及的更多处理密集型任务。视觉模型21可生成推断和/或决定输出，该输出例如可被显示给驾驶员或乘客信息系统，和/或可被输入到控制单元22，在这种情况下，控制单元22控制车辆11的一个或多个电气和/或机械方面。例如，控制单元22可发出控制应用制动器23的信号。同一控制单元22或其它控制单元可控制其它方面，诸如转向、加速、指示、照明等。

在图3中示出了另一个示例，其涉及增强现实(AR)应用。诸如智能电话或平板计算机的移动设备30可包括显示屏31以及用于捕获表示视频帧的视频数据的一个或多个摄像头32。注意，捕获可并非意味着将视频存储在移动设备的存储器上，而是可意味着将它显示到显示屏31。当移动设备30的用户在摄像头的视口内捕获一个或多个对象33时，视频数据可被分析例如以识别可用于特定目的的对象，诸如人、条形码、零售物品、建筑物等。例如，视觉模型可用于分析所检测到的人、执行面部识别、以及在显示屏31上显示人的姓名34。

AR是落入虚拟现实(VR)的概括性术语内的多种技术之一。任何VR相关的技术可使用本文所公开的方法和装置。例如，图4示出了一般化的VR系统40，包括媒体播放器41和VR显示设备42。媒体播放器41可包括个人计算机、膝上型计算机或游戏控制台。在一些情况下，媒体播放器41可包括VR显示设备42的部分。VR显示设备42可包括头戴式耳机、眼镜、护目镜或移动电话。远程内容提供商43可存储和发送流视频数据，该流视频数据在实施例的上下文中是用于显示到VR显示设备42的VR内容数据。内容提供商43通过数据网络44流传输VR内容数据，数据网络可以是任何网络，例如，诸如空中网络的IP网络、诸如3G、4G或5G移动IP网络、组播网络、或广播网络。如果数据网络44是单向的，则用于从VR显示设备42向内容提供商43提供反馈的返回通道可由另一个数据网络来提供。VR显示设备42可包括两个显示屏，以及可能的用于输出对应的音频数据的扬声器或耳机。VR显示设备42还可包括用于捕获用户的周围空间的一个或多个摄像头。由一个或多个摄像头捕获的视频数据可由视觉模型实时地进行分析，例如以警告用户有关特定类型的周围对象、暂停所述VR内容数据、和/或显示周围对象的画中画视图。

在所有示例中，用于分析视频帧的视觉模型可被本地存储在用户设备中，无论是车辆11、移动设备30还是VR系统40中，或者在一些情况下可在边缘设备上提供，诸如在路由器或网络处、或者甚至在远程服务器上，诸如在基于云的系统中。视觉模型可基于一种或多种深度学习方法来生成。

鉴于潜在的复杂性或使用深度学习生成的模型，执行这种视觉模型可能在计算上很昂贵。对于实时或近实时的应用，视觉模型可能在计算上非常昂贵，尤其是因为视频数据可以例如每秒60帧的速度接收。一些已知的视觉模型以大约每秒5万亿运算(TOPS)的速度执行，这给出了在执行具有输入的视频帧的计算模型时涉及的处理量级的概念。因此，这涉及大量的能耗。示例性实时对象检测视觉模型被称为YOLO(你只看一次(You Only LookOnce))，它以每秒30帧的速度处理图像。

本文中的示例性实施例可通过减少被提供给可使用深度学习计算模型的视觉模型分析阶段的帧数来降低能耗。这实现了更低的能耗，而例如无需压缩视觉模型，这可能导致性能和准确性下降，性能和准确性可能对诸如自动驾驶车辆的某些实时应用至关重要。如果视觉模型远离相关装置，例如在云中，示例性实施例还减少了需要在相关网络上传输的帧数。因此，示例性实施例可以提供带宽节省。

示例性实施例涉及：接收视频数据的帧，识别其中的一个或多个对象，以及基于该帧中的一个或多个对象的类型和位置与一个或多个先前帧中的一个或多个对象帧的类型和位置相比较，确定要跳过的帧数N。所跳过的帧不会被提供给视觉模型以用于图像分析。而是，后续帧N+1是接下来被提供的帧，并且该过程可针对进一步接收的帧而重复，由此，要跳过的帧数N可根据所述类型和时空局部性观察动态地改变。

策略模型可用于确定要跳过的帧数N。策略模型可以是预先训练的策略模型，其被提供为在相关设备(移动设备或车辆，或者所涉及的任何其它形式的设备)上的独立的数据集或结构。策略模型可使用强化学习(RL)方法来进行预先训练，诸如通过使用马尔可夫决策过程(MDP)以产生Q网络。策略模型可接收状态参数S作为输入，状态参数S表示当前帧中的一个或多个对象相对于一个或多个先前帧的时空局部性。

对象类型可以是指一类对象，例如，以区分人类与动物，以及区分人类和动物两者与车辆等。甚至可在每个类别内对不同的子类别进行分类，例如，在人类类别内，可存在性别子类别(男性和女性)、矮人类和高人类子类别等。类似地，可针对动物(例如，猎豹、猫)和车辆(例如，汽车、轮船、飞机)提供子类别。对象的类型可作为来自对象识别模型的推断而产生，对象识别模型已被预先训练以将所接收的图像数据分类为包括一个或多个所识别的对象类型和/或子类型。

时空局部性(locality)是指所识别的对象随时间改变它的空间位置的程度。对象可包括给定帧(片段)中的空间相邻像素的斑点，或者可通过识别感兴趣的区域(例如，与诸如背景地形的非对象相比，在矩形边界框内)来确定。这可给出对象是什么(例如，慢速或快速移动对象)的一些指示，该指示在一些示例性实施例中可用于确定执行什么动作，例如，要跳过多少帧。在一些实施例中，通过使用经训练的计算模型来计算地确定所识别的对象类型，例如，它所属的类别和/或子类别，所述对象类型跨多个帧的时间局部性可提供附加信息，该附加信息提供对要跳过的帧数N的更好的估计。因此，例如，策略模型可不同地对待被识别为第一类型的对象与被识别为第二类型的对象。例如，第一类型可以是汽车，第二类型可以是船。在一些实施例中，所接收的帧中的多个对象使用策略模型来进行评估。

在一些实施例中，所接收的帧中的所有像素或对象使用策略模型来进行评估，由此，一些像素或对象可表示一个或多个特定感兴趣的对象，其它像素可表示非对象，例如，背景。因此，评估可基于整个帧来进行，由此，策略模型不是仅基于一个对象，而是基于帧中的所有对象来确定要跳过的帧数。

因此，通过减少被提供给视频分析的后续处理繁重的阶段的帧数，可减少能耗。这是通过数据驱动(相对于例如启发式)方法来实现的，其中，应维持或者至少不显著地降低由后续视频分析阶段做出的推断或决策的准确性。

图5是在其上提供或执行示例性实施例的装置上执行的操作的流程图。例如，该装置可以是图1-4中所示的系统中的任何一个。该装置接收输入视频帧50，输入视频帧50可实时或近实时地接收，以便视觉模型52基于过程或跳过控制器56来产生推断输出53，过程或跳过控制器56确定哪些帧被传递以用于由所述视觉模型52进行处理而那些帧被跳过。过程或跳过控制器56的决策是基于策略模型54而做出的，策略模型54通知过程或跳过控制器56要跳过多少帧N。尽管如此，所跳过的帧N仍然可例如被输出到显示屏，但并不被传递到视觉模型52以用于分析处理。可提供特征提取阶段58以提取和确定对象类型，根据已知方法识别它们的坐标，以及将该信息作为输入提供给策略模型54。特征提取阶段58可包括用于确定对象类型的预先训练的模型，其可包括子类型的一个或多个层。示例性预先训练模型可包括一下中的一个或多个：YOLO、TinyYOLO、以及基于卷积神经网络(CNN)的特征提取器。

可替代地或附加地，如由虚线57所指示的，视觉模型52可至少部分地用于确定对象类型和/或子类型，并向策略模型54提供推断输出。假定视觉模型52被配置为除了确定对象类型之外执行一些进一步的视觉处理任务。策略模型54可将各个对象类型和坐标与一个或多个先前帧中的对应对象的类型和坐标(以及可能的其它参数)进行比较。策略模型54可访问数据存储59或缓存，其维持表示先前帧中的对象和坐标的预定义或可变长度的缓冲器。策略模型54生成N的下一个值，并且该过程可重复。

图6是更一般形式的操作的流程图，这些操作可由硬件、软件或两者的组合来执行。

第一操作6.1可包括：接收表示包括多个帧的视频内容的第一帧的数据。

第二操作6.2可包括：在第一帧中，对于第一帧中的至少一个对象，确定对象类型和位置。

第三操作6.3可包括：基于第一帧中的对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N。

第四操作6.4可包括：将第N+1帧而不是所跳过的帧提供给视觉模型以用于处理该帧，并例如提供推断输出。

上面所提及的策略模型54可被预先训练并被提供为独立的模型以存储在相关装置上。它可由外部系统进行预先训练，并在网络上进行部署或分布。

关于训练阶段，这可涉及使用未标记的视频片段来训练强化学习(RL)模型；这是来自不同的源的潜在大量视频帧，这些视频帧尚未以任何特定方式被分类或标记以在机器学习方法中使用。这种未标记的视频可从各种提供商免费获得和/或可从因特网获得。策略模型54可使用马尔可夫决策过程(MDP)来训练，其中存在多个元素，即，状态、动作和奖励。在其它实施例中，训练帧可被标记。

例如，状态S可被定义为视频帧F_n的当前状态，视频帧F_n可包括具有所推断的类型和/或子类型并且具有在某些坐标处的像素和关于该对象的一些历史信息(例如，在一个或多个先前帧中的坐标)的对象。

例如，动作A可提供状态S的更新。动作A可对应于应跳过的帧数N。因此，关于在给定状态S中的输入(在该帧中的坐标)和输出(关于一个或多个对象，类型和时空局部性信息指示什么)两者的知识可导致操作A更新该状态，例如，跳过N帧。例如，静止或缓慢移动的对象类型，诸如休息中的猫，可导致比快速移动的对象类型(诸如移动的汽车)跳过更多数量的帧。因此，在训练期间，考虑对象类型的语义，以提供对于生成合适的动作A有用的附加信息。以上述示例为例，在不知道对象类型是“猫”或“汽车”的情况下，如果这两个对象边界框位于相同的位置(x₁,y₁,z₁)，则它们的状态S是相同的。合并对象类型将这两个对象区分为具有相应的不同状态，例如：

状态S_A＝(x₁,y₁,z₁)+(猫)

状态S_B＝(x₁,y₁,z₁)+(汽车)

相应的状态S_A、S_B可通过训练阶段来指定适合它们的语义的更准确和更细粒度的跳过策略。

例如，对于在状态S中执行的每个动作A，奖励R可被分配给代理。奖励可取决于输入状态S、动作A以及在执行动作A之后达到的输出状态S'。奖励R可在训练阶段期间进行设计以增加或最大化跳过的帧数(即，N应当大)。这样，如果更多的帧N被跳过，则可给予代理更大的奖励R。这样做的目的是减少使用视觉模型的后续视频分析阶段需要处理的帧数。然而，为了避免在视频分析阶段中例如通过跳过重要帧而丢失任何重要的对象或事件，如果由于跳过而导致丢失了任何所谓的关键帧，则训练也会惩罚奖励R。因此，在一些实施例中，关键帧可通过将训练帧应用于预先训练的对象检测模型来确定，以识别其中新对象出现或已有对象转变的帧。例如，在训练期间，对于跳过的每一帧，奖励R可增加值x，但是对于跳过的每一个关键帧，减少值y。x和y的值可以是相同或不同的。

因此，最佳策略模型可以是：在整个视频片段上最大化奖励，同时避免丢失关键帧。

在充分训练之后，例如，在已经处理了大量但可行的训练帧之后，RL模型被保存，并且举例说明可作为策略模型被部署到如参考图1-4示出和描述的这种装置。因此，虽然生成RL模型本身可能是计算密集型的，但在被部署到其它装置以用于实施之前它仅需要被执行一次。

图7是更一般形式的训练操作的流程图，这些操作可由硬件、软件或两者的组合来执行。

第一操作7.1可包括：接收表示多个训练帧的数据。训练帧可以是未标记的视频帧。

第二操作7.2可包括：确定训练图像中的关键帧。关键帧可以是其中检测到新对象或者对象转变的帧。关键帧可使用预先训练的对象检测模型来检测。

第三操作7.3可包括：使用强化学习(RL)方法生成经训练的策略模型，以用于基于当前状态S来确定要跳过的帧数N。状态S可考虑对象的类型和/或子类型。

图8A和图8B各自示出了相应的视频片段的多个连续帧，通过示例的方式，以示出可如何使用预先训练的策略模型54来处理帧。

图8A示出了连续帧80A-80E，其描绘了相对静止或缓慢移动的前景对象81。在接收到第一帧80A时，该方法可识别前景对象81和背景对象84，并提取特征，诸如组成前景对象的像素斑点的坐标和组成背景对象的像素斑点的坐标。还可以考虑与其它对象(未示出)对应的其它像素。在其它实施例中，特征提取可涉及识别边界框内的候选对象。斑点/候选对象可被传递到计算模型，例如，在特征提取阶段58内或作为视觉模型52的一部分，以确定对象类型和/或子类型，例如，“猫”。策略模型54可将该类型和坐标与一个或多个先前帧(未示出)的类型和坐标进行比较，以识别前景对象81是猫并且没有移动或几乎没有移动。因此，策略模型54可确定该帧和接下来的三个帧(N＝4)可被跳过，而后续帧80E(第N+1个帧)被提供给视觉模型52。

图8B示出了连续帧82A-82E，其描绘了相对快速移动的前景对象83，诸如移动的车辆。在接收到第一帧82A时，该方法可识别前景对象83和背景对象85，并提取特征，诸如组成前景对象的像素斑点的坐标。在其它实施例中，特征提取可涉及识别边界框内的候选对象。斑点/候选对象可被传递到计算模型，例如，在特征提取阶段58内或作为视觉模型52的一部分，以确定对象类型和/或子类型，例如，“汽车”。策略模型54可将该类型和坐标与一个或多个先前帧(未示出)的类型和坐标进行比较，以识别前景对象83是汽车并且已经移动了相对大的量。因此，策略模型54可确定要跳过该帧和下一帧(N＝2)，而后续帧82C(第N+1帧)被提供给视觉模型52。该过程可针对下一帧82D，基于该帧相对于一个或多个先前帧(例如，82A-82C)的时空局部性进行重复，这可导致跳过的帧的数量不同，例如，N＝1。

因此，在一些示例中，基本上整个帧被分割成多个对象、或者所提取的多个对象，然后由策略模型54进行处理。以这种方式，基于整个帧(而不是子区域)或帧中的所有对象，做出一个加强的帧跳过决策，以便跳过一个或多个完整的帧的后续处理。

图9是其中可执行图6或图7的操作的装置90的组件的示意图。装置90可具有紧密耦合到存储器94的控制器91，以及可选的硬件键96、显示器98和摄像头99。装置90可包括至少一个用于连接到网络或其它数据网络的网络接口110，例如，可以是有线或无线的调制解调器。例如，网络接口110可用于从远程服务器下载策略模型54和/或视觉模型52，或者可用于向视觉模型提供所过滤掉的帧数，如果其远离装置90。

存储器94可包括RAM 92和ROM 93。

处理器91可被连接到其它组件中的每一个以控制其操作。

存储器94可包括非易失性存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器94的ROM 93尤其可存储操作系统112，并且可存储一个或多个软件应用114。存储器94的RAM92可被处理器91用于临时存储数据。操作系统112可包含代码，该代码在由处理器执行时执行图6或图7的操作及其变型。

处理器91可采用任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器、或多个处理器。

策略模型54和/或视觉模型可被存储在ROM 93或单独的存储模块中，例如，在存储卡上。

图10示出了根据一些实施例的非暂时性介质120。非暂时性介质120是计算机可读存储介质。它例如可以是CD、DVD、USB棒、蓝光光盘等。非暂时性介质120存储计算机程序代码，从而当该计算机程序代码由诸如图9的处理器91的处理器执行时使得装置执行图6和/或图7中的任何一个的方法。

在上文中，网络单元、协议和方法的名称可以是基于当前的标准。在其它版本或其它技术中，这些网络单元和/或协议和/或方法的名称可以是不同的，只要它们提供对应的功能。例如，实施例可被部署在2G/3G/4G/5G网络和3GPP的更多代中，但也可被部署在诸如WiFi的非3GPP无线电网络中。

存储器可以是易失性的或非易失性的。它例如可以是RAM、SRAM、闪存存储器、FPGA块RAM、DCD、CD、U盘、以及蓝光光盘。

如果没有另外陈述或者从上下文中清楚地陈述，则两个实体是不同的陈述意味着它们执行不同的功能。这并非意味着它们是基于不同的硬件。也就是说，本说明书中描述的每个实体可以是基于不同的硬件，或者一些或全部实体可以是基于相同的硬件。这并非意味着它们是基于不同的软件。也就是说，本说明书中描述的每个实体可以是基于不同的软件，或者一些或全部实体可以是基于相同的软件。本说明书中描述的每个实体可被体现在云中。

作为非限制性示例，上面所描述的块、装置、系统、技术或方法中的任何一个的实现包括作为硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其中的一些组合的实现。一些实施例可在云中实现。

提及“构件”可意味着任何硬件或软件或其组合。例如，构件可以是指至少一个处理器；以及连接到至少一个处理器的至少一个存储器。

应当理解，上面所描述的是目前被认为的优选实施例。然而，应当注意，仅通过示例的方式给出了对优选实施例的描述，并且在不背离所附权利要求所限定的范围的情况下可进行各种修改。

Claims

1.一种装置，包括用于执行以下操作的构件：

接收表示包括多个帧的视频内容的第一帧的数据；

在所述第一帧中，对于所述第一帧中的至少一个对象，确定对象类型和位置；

基于所述第一帧中的所述对象的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较，确定要跳过的帧数N；以及

将第N+1帧而不是所跳过的帧提供给用于将所述帧应用于图像模型的构件。

2.根据任一项前述权利要求所述的装置，其中，在所述第一帧中确定所述对象类型和位置包括：识别所述第一帧中的多个对象，对于每个对象，在所述第一帧中确定所述对象类型和位置，并且其中，确定所述要跳过的帧数N是基于所述第一帧中的所有对象的相应的类型和位置与一个或多个先前帧中的一个或多个对象的类型和位置的比较。

3.根据权利要求1或权利要求2所述的装置，其中，所述构件进一步被配置为：接收所述多个帧的视频内容的后续帧，以及对所述后续帧重复所述确定操作和所述提供操作。

4.根据任一项前述权利要求所述的装置，其中，所述构件被配置为：使用策略模型来确定所述要跳过的帧数N，所述策略模型接收状态参数S作为输入，所述状态参数S表示所述第一帧或任一后续帧中的所述一个或多个对象的相应的类型和位置。

5.根据权利要求4所述的装置，其中，所述策略模型是预先训练的策略模型。

6.根据权利要求5所述的装置，其中，所述策略模型是使用强化学习方法来预先训练的。

7.根据权利要求6所述的装置，其中，所述策略模型是通过使用强化学习方法和对象检测模型来训练的，其中所述强化学习方法将多个训练图像作为输入，所述对象检测模型用于确定所述多个训练图像中的关键帧，其中，所述强化学习方法使用奖励函数，所述奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过。

8.根据权利要求7所述的装置，其中，所述对象检测模型将关键帧确定为其中新对象出现或对象转变发生的帧。

9.根据任一项前述权利要求所述的装置，其中，所述图像模型处理构件远离所述装置。

10.根据任一项前述权利要求所述的装置，其中，所述图像模型处理构件是用于分析所提供的帧并用于产生推断输出的计算模型。

11.根据任一项前述权利要求所述的装置，其中，所述构件包括：

至少一个处理器；以及

被连接到所述至少一个处理器的至少一个存储器。

12.一种方法，包括：

接收表示包括多个帧的视频内容的第一帧的数据；

向视觉模型处理器提供第N+1帧而不是所跳过的帧。

13.一种非暂时性计算机可读介质，包括在其上存储的用于执行方法的程序指令，所述方法包括：

接收表示包括多个帧的视频内容的第一帧的数据；

向视觉模型处理器提供第N+1帧而不是所跳过的帧。

14.一种装置，包括用于执行以下操作的构件：

接收表示多个训练图像的数据，所述训练图像表示一个或多个视频片段；

确定所述多个训练图像中的关键帧；

使用强化学习方法生成经训练的策略模型以用于响应于所检测到的状态S而确定要跳过的帧数N，所述强化学习方法将所述多个训练图像作为输入并使用奖励函数，所述奖励函数针对给定状态奖励所跳过的帧数N的增加，同时惩罚所确定的关键帧的跳过以达成所述经训练的策略模型。

15.一种方法，包括：

确定所述多个训练图像中的关键帧；