CN113449697B

CN113449697B - 视频信息处理方法、设备及计算机存储介质

Info

Publication number: CN113449697B
Application number: CN202110997019.8A
Authority: CN
Inventors: 程文华; 吕倪祺; 方民权; 游亮; 龙欣
Original assignee: Alibaba China Co Ltd; Alibaba Cloud Computing Ltd
Current assignee: Alibaba China Co Ltd; Alibaba Cloud Computing Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-01-25
Anticipated expiration: 2041-08-27
Also published as: CN113449697A

Abstract

本申请实施例提供了一种视频信息处理方法、设备及计算机存储介质。方法包括：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。本申请提供的技术方案，有效地实现了对待处理视频中特征图的动态信息和静态信息进行提取操作，而后可以利用动态信息和静态信息对待处理视频进行分析处理，例如，视频分类处理、视频标注处理、视频信息抽取处理等，进一步提高了该视频信息处理方法的适用范围。

Description

视频信息处理方法、设备及计算机存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频信息处理方法、设备及计算机存储介质。

背景技术

随着移动互联网和视频推荐算法等相关技术的发展，小视频等视频应用已经走入人们的生活，并较大影响着信息分发、网络购物、娱乐等应用领域。在此过程中，视频分类等视频理解算法起着重要作用，但视频理解复杂度和计算量都远远高于图片，主要的原因在于视频增加了时间维度，因此，如何高效地获取时间维度上的信息是一个亟需解决的难题。

发明内容

本申请实施例提供一种视频信息处理方法、设备及计算机存储介质，可以准确地获取与视频信息相对应的动态信息和静态信息，而后可以基于动态信息和静态信息对视频信息进行理解处理。

第一方面，本申请实施例提供了一种视频信息处理方法，包括：

获取与待处理视频相对应的特征图集合，所述特征图集合中包括至少两帧特征图，并且，所述特征图集合是通过网络模型中任意一个网络层对所述待处理视频进行分析处理后获得的；

在时间维度上，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差；

基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

第二方面，本申请实施例提供了一种视频信息处理装置，包括：

第一获取模块，用于获取与待处理视频相对应的特征图集合，所述特征图集合中包括至少两帧特征图，并且，所述特征图集合是通过网络模型中任意一个网络层对所述待处理视频进行分析处理后获得的；

第一确定模块，用于在时间维度上，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差；

第一处理模块，用于基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所示的视频信息处理方法。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面所示的视频信息处理方法。

第五方面，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第一方面所示的视频信息处理方法中的步骤。

第六方面，本发明实施例提供了一种视频信息处理方法，包括：

响应于调用视频信息处理请求，确定视频信息处理服务对应的处理资源。

利用所述处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，所述特征图集合中包括至少两帧特征图，并且，所述特征图集合是通过网络模型中任意一个网络层对所述待处理视频进行分析处理后获得的；在时间维度上，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差；基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

第七方面，本发明实施例提供了一种视频信息处理装置，包括：

第二确定模块，用于响应于调用视频信息处理请求，确定视频信息处理服务对应的处理资源；

第二处理模块，用于利用所述处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，所述特征图集合中包括至少两帧特征图，并且，所述特征图集合是通过网络模型中任意一个网络层对所述待处理视频进行分析处理后获得的；在时间维度上，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差；基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

第八方面，本申请实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第六方面所示的视频信息处理方法。

第九方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第六方面所示的视频信息处理方法。

第十方面，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第六方面所示的视频信息处理方法中的步骤。

本申请实施例提供的技术方案，通过获取与待处理视频相对应的特征图集合，而后在时间维度上确定所述特征图集合中的相邻两帧特征图之间的冲量偏差，基于所述冲量偏差确定与所述特征图集合中特征图相对应的动态信息和静态信息，从而有效地实现了对待处理视频中特征图的动态信息和静态信息进行提取操作，而后可以利用动态信息和静态信息对待处理视频进行分析处理，例如，视频分类处理、视频标注处理、视频信息抽取处理等等，进一步提高了该视频信息处理方法的适用范围。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频信息处理方法的场景示意图；

图2为本申请实施例提供的一种视频信息处理方法的流程示意图；

图3为本申请实施例提供的在每个特征通道上，确定所述特征图集合中的相邻两帧特征图之间的重心偏差的流程示意图；

图4为本申请实施例提供的基于所述动态信息和所述静态信息对所述视频信息进行分析处理的流程示意图；

图5为本申请应用实施例提供的一种视频理解方法的流程示意图；

图6为本申请实施例提供的另一种视频信息处理方法的流程示意图；

图7为本申请实施例提供的一种视频信息处理装置的结构示意图；

图8为图7所示的视频信息处理装置所对应的电子设备的结构示意图；

图9为本申请实施例提供的另一种视频信息处理装置的结构示意图；

图10为图9所示的视频信息处理装置所对应的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面对相关技术进行说明：

为了解决上述技术问题，相关技术中提供了几种获取时间维度信息的实现方法，具体包括：通过3D卷积网络获取时间维度信息、通过光流方式获取时间维度信息、通过注意力机制获取时间维度信息等。

其中，通过3D卷积网络获取时间维度信息的实现原理主要是：将2d卷积网络拓展成3d卷积网络，而后利用3d卷积网络获取视频信息的时间维度信息。该种实现方式的数据处理效果较好，但是数据计算量增加较大。

通过光流方式来获取时间维度信息的实现原理主要是：通过引入多模态数据，而后对所引入的多模态数据进行分析处理，以获取时间维度信息。然而，该种实现方式需要引入一个单独的网络模型来对多模态的光流进行处理，并且还需要提取与视频信息相对应的光流信息，这样容易导致数据处理过程不仅繁琐，并且成本较高。

通过注意力机制获取时间维度信息的实现原理主要是：获取视频信息中所对应的特征信息，确定特征信息的相似度，利用特征信息的相似度从上下文中聚合相关的信息，从而可以获得视频信息的时间维度信息。然而，该种实现方式与上述通过3D卷积网络获取时间维度信息的实现方式相类似，在从上下文拓展到时间维度上之后，数据计算量会急剧加大。

另外，在利用特征信息的相似度从上下文中聚合相关的信息时，一种实现方式可以为：将某些特征图的一部分通道特征与其余帧进行交换，此时，数据的计算量较低。但是，在进行特征交换时，相关技术中所提供的交换策略是固定的，例如：可以将特征图分出1/4、1/8与上一帧特征图对应的通道进行特征交换，将特征图分出1/8与下一帧特征图对应的通道进行交换。然而，上述实现方式只适用于视频分类任务，并不适合跟运动相关的视频分析任务。此外，由于相关技术所提供的交换策略较为简单、固定，由于进行分析处理的视频信息中相近帧信息之间存在大量冗余，此时，相邻图像帧所提取的图像特征都有一定的相似度。如果特征交换的部分刚好是两个图像帧共有的部分时，那么对视频信息进行分析处理的收益较小。

为了解决上述技术问题，本实施例提供了一种视频信息处理方法、设备及计算机存储介质，该方法的执行主体可以为视频信息处理装置，视频信息处理装置可以通信连接有客户端，参考附图1所示：

其中，客户端可以是任何具有一定数据传输能力的计算设备，此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器（Read-Only Memory，简称ROM）、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统（Operating System，简称OS）、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。可选地，客户端可以为PC（personal computer）终端、手持终端（例如：智能手机、平板电脑）等。

视频信息处理装置是指可以在网络虚拟环境中提供视频信息处理服务的设备，通常是指利用网络进行信息规划、视频信息处理操作的装置。在物理实现上，视频信息处理装置可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。视频信息处理装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

在上述本实施例中，客户端可以与视频信息处理装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与视频信息处理装置是通信连接，该移动网络的网络制式可以为2G（GSM）、2.5G（GPRS）、3G（WCDMA、TD-SCDMA、CDMA2000、UTMS）、4G（LTE）、4G+（LTE+）、WiMax、5G等中的任意一种。

在本申请实施例中，客户端可以生成或者获取与待处理视频相对应的特征图集合，特征图集合中可以包括至少两帧特征图。具体的，本实施例对于客户端生成或者获取与待处理视频相对应的特征图集合的具体实现方式不做限定，例如：客户端内设置有用于对待处理视频进行分析处理的视频处理网络，在客户端获取到待处理视频之后，可以利用视频处理网络对待处理视频进行分析处理，以获取与待处理视频相对应的特征图集合。或者，客户端上可以设置有特定接口，通过特定接口可以获取到其他设备发送的特征图集合。在获取到特征图集合之后，可以将特征图集合上传至视频信息处理装置，以使得视频信息处理装置可以对所上传的特征图集合进行数据分析处理。

视频信息处理装置，用于接收客户端上传的特征图集合，其中，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的。在获取到特征图集合之后，可以在时间维度上来确定特征图集合中的相邻两帧特征图之间的冲量偏差；在获取到冲量偏差之后，可以对冲量偏差进行分析处理，以确定特征图在每个特征通道上的运动相关特征，而后可以基于运动相关特征来确定与特征图集合中的特征图相对应的动态信息和静态信息，从而有效地实现了对待处理视频中的动态信息和静态信息进行提取操作，而后可以利用动态信息和静态信息对待处理视频进行分析处理，例如，视频分类处理、视频标注处理、视频信息抽取处理等等，进一步提高了该视频信息处理方法的适用范围。

本实施例提供的技术方案，通过获取与待处理视频相对应的特征图集合，而后在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；并基于冲量偏差来确定特征图在每个特征通道上的运动相关特征，在获取到运动相关特征之后，可以对运动相关特征进行分析处理，以确定与特征图集合中特征图相对应的动态信息和静态信息，从而有效地实现了对待处理视频中特征图的动态信息和静态信息进行提取操作，而后可以利用动态信息和静态信息对待处理视频进行分析处理，例如，视频分类处理、视频标注处理、视频信息抽取处理等等，这样有效地保证了对视频信息进行分析处理的质量和效率，进一步提高了该视频信息处理方法的实用性。

下面通过一个示例性的应用场景具体说明本申请各个实施例提供的视频信息处理方法、设备及计算机存储介质。

图2为本申请实施例提供的一种视频信息处理方法的流程示意图；参考附图2所示，本实施例提供了一种视频信息处理方法，该方法的执行主体可以为视频信息处理装置，可以理解的是，该视频信息处理装置可以实现为软件、或者软件和硬件的组合，具体应用时，该视频信息处理装置可以设置在用于对视频信息进行分析处理的网络模型中。具体的，该视频信息处理方法可以包括：

步骤S201：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的。

步骤S202：在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差。

步骤S203：基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

下面对上述各个步骤进行详细说明：

其中，当用户存在视频信息的处理需求时，则可以使得视频信息处理装置获取与待处理视频相对应的特征图集合，上述特征图集合可以是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的。在一些实例中，为了保证对视频信息进行分析处理的质量和效率，对于特征图集合而言，可以确定与特征图集合相对应的属性信息，该属性信息可以包括以下至少之一：特征图处理批量参数、特征图的帧数、通道数、每个特征图的宽度尺寸和高度尺寸等等。

需要注意的是，对待处理视频进行分析处理的执行主体可以为视频信息处理装置或者可以是与视频信息处理装置通信连接的第三设备。在执行主体为视频信息处理装置时，此时的视频信息处理装置中可以配置有用于对待处理视频进行分析处理的网络模型，在网络模型对待处理视频进行分析处理时，可以获取网络模型中任意一个网络层对待处理视频进行分析处理后的特征图集合，可以理解的是，不同的网络层可以得到不同的特征图。在执行主体为与视频信息处理装置通信连接的第三设备时，此时的第三设备中可以配置有用于对待处理视频进行分析处理的网络模型，在网络模型对待处理视频进行分析处理时，可以获取网络模型中任意一个网络层对待处理视频进行分析处理后的特征图集合，可以理解的是，不同的网络层可以得到不同的特征图。在第三设备获取到特征图集合之后，可以将特征图集合发送至视频信息处理装置，从而使得视频信息处理装置可以稳定地获取到与待处理视频相对应的特征图集合。

在获取到特征图集合之后，可以在时间维度上对特征图集合中的相邻两帧特征图进行分析处理，以确定特征图集合中的相邻两帧特征图之间的冲量偏差，该冲量偏差用于标识特征图中某一特征对象的重要程度，冲量偏差越大，则说明位于特征图中的特定对象比较重要；冲量偏差越小，则说明位于特征图中的特定对象不是很重要。

在一些实例中，确定特征图集合中的相邻两帧特征图之间的冲量偏差可以包括：在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差；获取特征图集合中的相邻两帧特征图在每个特征通道上的平均质量；基于重心偏差和平均质量，确定特征图集合中的相邻两帧特征图之间的冲量偏差。

为了能够准确地获取到特征图集合中相邻两帧特征图之间的冲量偏差，在获取到特征图集合之后，可以在每个特征通道上，对特征图集合中相邻两帧特征图进行分析处理，以确定特征图集合中的相邻两帧特征图之间的重心偏差，该重心偏差用于标识相邻两帧特征图之间的运动偏移量。

另外，由于冲量偏差与特征图上像素点的质量特征相关，因此，在获取到特征图集合之后，可以对特征图集合中的相邻两帧特征图在每个特征通道上的质量特征进行分析处理，以获取相邻两帧特征图在每个特征通道上的平均质量。可以理解的是，对于一个特征图而言，一个特征通道可以对应一个平均质量，在特征通道的数量为多个时，则可以获取到多个与特征通道相对应的平均质量。

在获取到重心偏差和平均质量之后，可以对重心偏差和平均质量进行分析处理，以确定特征图集合中的相邻两帧特征图之间的冲量偏差。在一些实例中，基于重心偏差和平均质量，确定特征图集合中的相邻两帧特征图之间的冲量偏差可以包括：将重心偏差与平均质量之间的乘积值，确定为相邻两帧特征图之间的冲量偏差，从而有效地保证了对相邻两帧特征图之间的冲量偏差进行获取的准确可靠性。

需要说明的是，本实施例中的步骤“在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差”与步骤“获取特征图集合中的相邻两帧特征图在每个特征通道上的平均质量”之间的执行顺序并不限于上述实施例中所限定的顺序，例如：步骤“在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差”可以在步骤“获取特征图集合中的相邻两帧特征图在每个特征通道上的平均质量”之后执行，或者，步骤“在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差”与步骤“获取特征图集合中的相邻两帧特征图在每个特征通道上的平均质量”同时执行，本领域技术人员可以根据具体的应用场景和应用需求对上述步骤之间的执行顺序进行调整，在此不再赘述。

在获取到冲量偏差之后，可以对冲量偏差进行分析处理，确定与特征图集合中特征图相对应的动态信息和静态信息。在一些实例中，基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息可以包括：基于冲量偏差，确定特征图在每个特征通道上的运动相关特征；基于运动相关特征，确定与特征图集合中特征图相对应的动态信息和静态信息。

在获取到冲量偏差之后，可以对冲量偏差进行分析处理，以确定特征图在每个特征通道上的运动相关特征，该运动相关特征可以包括用于标识特征图中的像素点为动态像素点的权重系数。在一些实例中，基于冲量偏差，确定特征图在每个特征通道上的运动相关特征可以包括：获取用于对冲量偏差进行分析处理的浅层网络；利用浅层网络对冲量偏差进行处理，获得特征图在每个特征通道上的运动相关特征。

具体的，预先配置有用于对冲量偏差进行分析处理的浅层网络，该浅层网络可以存储在预设区域中，通过访问预设区域即可获取用于对冲量偏差进行分析处理的浅层网络。在获取到浅层网络之后，可以将冲量偏差输入至浅层网络，以利用浅层网络对冲量偏差进行分析处理，从而可以准确、有效地获得浅层网络输出的特征图在每个特征通道上的运动相关特征。

在获取到运动相关特征之后，可以对运动相关特征进行分析处理，以确定与特征图集合中特征图相对应的动态信息和静态信息，动态信息可以是指相邻特征图之间存在位移运动的像素点信息，静态信息可以是指相邻特征图之间不存在位移运动的像素点信息。

在运动相关特征中包括用于标识像素点为动态特征点的权重系数时，本实施例中的基于运动相关特征，确定与特征图集合中特征图相对应的动态信息和静态信息可以包括：基于运动相关特征，确定用于标识特征图中像素点为动态特征点的权重系数；基于权重系数，确定与特征图集合中特征图相对应的动态信息和静态信息。

具体的，在获取到运动相关特征之后，可以对运动相关特征进行分析处理，以确定用于标识特征图中像素点为动态特征点的权重系数，该权重系数可以以flow来标识。在获取到权重系数之后，可以对权重系数进行分析处理，以确定与特征图集合中特征图相对应的动态信息和静态信息。在一些实例中，基于权重系数，确定与特征图集合中特征图相对应的动态信息和静态信息可以包括：获取1与权重系数之间的差值；将权重系数与特征图之间的乘积，确定为与特征图相对应的动态信息；将差值与特征图之间的乘积，确定为与特征图相对应的静态信息。

举例来说，以flow作为权重系数为例，在获取到权重系数之后，可以获取到1与权重系数之间的差值，即为（1-flow），而后可以将权重系数与特征图之间的乘积确定为与特征图相对应的动态信息，并将差值与特征图之间的乘积确定为与特征图相对应的静态信息，即对于特征图x而言，x*flow为与特征图x相对应的动态信息，x*（1-flow）为与特征图相对应的静态信息，从而有效地实现了对动态信息和静态信息进行获取的准确可靠性。

本实施例提供的视频信息处理方法，通过获取与待处理视频相对应的特征图集合，而后在时间维度上确定所述特征图集合中的相邻两帧特征图之间的冲量偏差，基于所述冲量偏差确定与所述特征图集合中特征图相对应的动态信息和静态信息，从而有效地实现了对待处理视频中特征图的动态信息和静态信息进行提取操作，而后可以利用动态信息和静态信息对待处理视频进行分析处理，例如，视频分类处理、视频标注处理、视频信息抽取处理等等，进一步提高了该视频信息处理方法的适用范围。

图3为本申请实施例提供的在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差的流程示意图；在上述实施例的基础上，参考附图3所示，本实施例提供了一种确定特征图集合中的相邻两帧特征图之间的重心偏差的实现方式，具体的，本实施例中的在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差可以包括：

步骤S301：获取相邻两帧特征图在每个特征通道上各自对应的重心信息。

在获取到特征图集合之后，可以对特征图集合中相邻两帧特征图进行分析处理，以获取相邻两帧特征图在每个特征通道上各自对应的重心信息。在一些实例中，获取相邻两帧特征图在每个特征通道上各自对应的重心信息可以包括：获取相邻两帧特征图各自对应的宽度信息和高度信息；确定相邻两帧特征图中像素点所对应的质量信息；基于宽度信息、高度信息和质量信息，确定相邻两帧特征图在每个特征通道上各自对应的重心信息。

具体的，对于特征图集合中的特征图而言，为了能够准确地获取到相邻两帧特征图在每个特征通道上各自对应的重心信息，则可以获取特征图集合中的特征图可以对应有宽度信息和高度信息。另外，由于重心信息与特征图上每个像素点的质量信息相关，因此，为了能够准确地获取相邻两帧特征图在每个特征通道上各自对应的重心信息，则可以确定相邻两帧特征图中像素点所对应的质量信息。

在获取到宽度信息、高度信息和质量信息之后，可以对宽度信息、高度信息和质量信息进行分析处理，以确定相邻两帧特征图在每个特征通道上各自对应的重心信息，具体的，可以基于特征图上每个像素点的质量信息确定特征图在每个特征通道上像素点所对应的重量信息，而后基于重量信息、宽度信息和高度信息来确定相邻两帧特征图在每个特征通道上各自对应的重心信息，这样有效地实现了将特征图集合中每个特征图的属性由三维（特征通道、宽度信息、高度信息）转换为一维（重心信息）。

需要注意的是，确定相邻两帧特征图中像素点所对应的质量信息可以包括：获取相邻两帧特征图中像素点所对应的原始质量；对相邻两帧特征图中所有像素点所对应的原始质量进行处理，获得相邻两帧特征图中像素点所对应的质量信息，质量信息大于或等于零。

具体的，为了能够准确地获取到相邻两帧特征图在每个特征通道上各自对应的重心信息，可以建立用于对特征图集合中特征图进行分析处理的坐标系，在所建立的坐标系中，对相邻两帧特征图进行分析处理，以获取相邻两帧特征图中像素点所对应的原始质量，该原始质量可以为大于零、小于零或者等于零的值。为了保证对重心信息进行获取的准确可靠性，需要将特征图中像素点的质量都配置为正值，因此，在获取到相邻两帧特征图中像素点所对应的原始质量之后，可以对相邻两帧特征图中所有像素点所对应的原始质量进行处理，从而可以获得相邻两帧特征图中像素点所对应的质量信息，此时的质量信息大于或等于零。

步骤S302：基于相邻两帧特征图在每个特征通道上各自对应的重心信息，确定相邻两帧特征图之间的重心偏差。

在获取到相邻两帧特征图在每个特征通道上各自对应的重心信息之后，可以对相邻两帧特征图在每个特征通道上各自对应的重心信息进行分析处理，以确定相邻两帧特征图之间的重心偏差，该重心偏差=|一个特征图的重心信息-另一个特征图的重心信息|，从而有效地保证了对相邻两帧特征图之间的重心偏差进行确定的准确可靠性。需要注意的是，每个特征通道可以对应一个重心偏差，不同的特征通道所对应的重心偏差之间相互独立。

本实施例中，通过获取相邻两帧特征图在每个特征通道上各自对应的重心信息，而后基于相邻两帧特征图在每个特征通道上各自对应的重心信息，确定相邻两帧特征图之间的重心偏差，从而有效地保证了对相邻两帧特征图之间的重心偏差进行确定的准确可靠性，进一步提高了基于重心偏差对视频信息进行处理的质量和效率。

在一些实例中，为了能够提高该视频信息处理方法的实用性，在确定与特征图集合中特征图相对应的动态信息和静态信息之后，本实施例中的方法还可以包括：基于动态信息和静态信息对视频信息进行分析处理，获得与视频信息相对应的处理结果。

具体的，在获取到动态信息和静态信息之后，可以基于动态信息和静态信息对视频信息进行分析处理，可以理解的是，不同的应用场景可以实现对视频信息进行不同的分析处理操作，并可以获得与视频信息相对应的处理结果。例如：在视频分类场景中，可以基于动态信息和静态信息对视频信息进行视频分类处理，可以获得与视频信息相对应的分类结果；在视频标注场景中，可以基于动态信息和静态信息对视频信息进行视频标注处理，可以获得与视频信息相对应的标注结果；在视频特征抽取场景中，可以基于动态信息和静态信息对视频信息进行特征提取处理，可以获得与视频信息相对应的提取特征结果；在视频推荐场景中，可以基于动态信息和静态信息对视频信息进行推荐处理，可以获得与视频信息相对应的视频推荐结果等等。在视频编辑场景中，可以基于动态信息和静态信息对视频信息进行编辑处理，可以获得与视频信息相对应的视频编辑结果等等。当然的，本领域技术人员可以根据具体的应用场景和应用需求来基于动态信息和静态信息对视频信息进行其他的分析处理操作，在此不再赘述。

另外，为了保证对视频信息进行分析处理的质量和效率，本实施例提供了一种对视频信息进行分析处理的实现方式，具体的，本实施例中的基于动态信息和静态信息对视频信息进行分析处理可以包括：将特征图所对应的静态信息忽略，并基于特征图所对应的动态信息对视频信息进行分析处理。

举例来说，在特征图集合中包括特征图a，通过对特征图集合进行分析处理，可以获取到特征图a相对应的动态信息a1和静态信息a2。在获取到动态信息a1和静态信息a2之后，可以将特征图a中的静态信息忽略，而后直接对特征图a所对应的动态信息a1进行分析处理，以实现对视频信息的分析处理操作，这样有效地实现了可以直接利用特征图中的动态信息来替代原有的特征图，并实现对视频信息进行分析处理操作。

在另一些实例中，参考附图4所示，本实施例提供了另一种对视频信息进行分析处理的实现方式，具体的，本实施例中的基于动态信息和静态信息对视频信息进行分析处理可以包括：

步骤S401：获取第一特征图所对应的动态信息和静态信息、第二特征图所对应的动态信息和静态信息，第一特征图与第二特征图相邻。

步骤S402：将第一特征图所对应的动态信息与第二特征图所对应的动态信息进行交换，获得第一处理后图像和第二处理后图像。

步骤S403：基于第一处理后图像和第二处理后图像对视频信息进行分析处理。

其中，第一特征图和第二特征图可以为特征图集合中的任意两个相邻的特征图。举例来说，特征图集合中可以包括第一特征图a和第二特征图b，其中，第一特征图a与第二特征图b相邻。通过对特征图集合进行分析处理，则可以获取上述各个特征图所对应的动态特征和静态特征，例如：可以获取第一特征图a所对应的动态特征a1和静态特征a2，第二特征图b所对应的动态特征b1和静态特征b2。

在获取到第一特征图a所对应的动态特征a1和静态特征a2，第二特征图b所对应的动态特征b1和静态特征b2之后，为了保证对视频信息进行分析处理的质量和效率，可以将第一特征图a所对应的动态信息a1与第二特征图b所对应的动态信息b1进行交换，获得第一处理后图像a`和第二处理后图像b`，其中，第一处理后图像a`可以对应有动态信息b1和静态特征a2，第一处理后图像b`可以对应有动态信息a1和静态特征b2。

在获取到第一处理后图像a`和第二处理后图像b`之后，可以基于第一处理后图像a`和第二处理后图像b`对视频信息进行分析处理，从而可以稳定地获取到分析处理结果。这样有效地实现了可以直接利用特征图中的动态信息来替代原有的特征图，而后实现对视频信息进行分析处理操作。

本实施例中，在获取到动态信息和静态信息之后，可以基于动态信息和静态信息对视频信息进行分析处理，具体的，可以直接基于动态信息来对视频信息进行分析处理；或者，将相邻两个特征图的动态信息进行交换，而后获得处理后的相邻两帧特征图，而后可以基于相邻两帧特征图进行分析处理，从而有效地实现了结合动态信息和静态信息来对视频信息进行分析处理，进而可以稳定地获得与视频信息相对应的处理结果，提高了该视频信息处理方法的实用性。

具体应用时，参考附图5所示，本应用实施例提供了一种视频理解方法，该方法能够高效地获取时间维度上的信息，并可以基于时间维度上的信息进行视频理解操作，这样有效地实现了在可忽略计算量的前提下，提升视频理解的准确率。具体的，该方法可以包括如下步骤：

步骤1：获取与待处理视频相对应的特征图集合。

其中，特征图集合x中的特征图可以是一个维度为（b,t,c,h,w）的特征图，上述的b是batch_size（特征图处理批量参数），t是帧数，c是通道数，h、w分别是特征图的宽度和高度。一般情况下，参数b可以是预先配置的参数，通道数c可以为3。上述的特征图集合x中所包括的特征图是网络模型（例如：卷积神经网络CNN）的某一个网络层对特征图进行分析处理后所获得的。

步骤2：通道重心信息/冲量偏差的计算。

具体的，由于重心信息需要保证特征图上各个像素点的质量为正，因此，在获取到特征图集合x之后，可以对x进行取正处理，从而可以获得质量信息均大于或等于零的特征图。而后可以计算特征图集合中每个特征图在每个特征通道上的重心信息，具体的，可以获取相邻两帧特征图各自对应的宽度信息和高度信息，而后确定相邻两帧特征图中像素点所对应的质量信息，并基于宽度信息、高度信息和质量信息，确定相邻两帧特征图在每个特征通道上各自对应的重心信息。

在获取到相邻两帧特征图在每个特征通道上各自对应的重心信息之后，可以在时间维度上计算上下相邻两帧特征图之间的重心偏差，即为相邻两帧特征图在每个特征通道上各自对应的重心信息之间的差值。在获取到重心偏差之后，可以确定相邻两帧特征图在每个特征通道上的平均质量，而后将重心偏差与平均质量之间的乘积值确定为相邻两帧特征图之间的冲量偏差，该冲量偏差用于标识特征图中的某一对象的重要程度，例如：对于一包括有人物和物品（小球）的特征图而言，人物所对应的质量比较大，因此人物所对应的冲量偏差往往比较大，同时也说明特征图中所包括的人物是需要特别关注的，而物品所对应的质量比较小，因此物品所对应的冲量偏差往往比较小，进而说明特征图中所包括的物品不需要关注。

另外，本实施例通过计算通道重心信息/冲量偏差，有效地实现了能够将特征图上的三维属性特征（高度信息、宽度信息和特征通道）转换为一维属性特征（冲量偏差），这样在对视频信息进行分析处理时，可以有效地降低数据处理量，有利于提升视频处理的速度和效率。

步骤3：基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

在获取到冲量偏差之后，可以将冲量偏差输入至可训练浅层网络（包括：全连接层fc,线性整流层relu, 全连接层fc,归一化层sigmoid），通过上述的可训练浅层网络可以获得特征图在每个特征通道上的运动相关特征，由于运动相关特征跟运动相关，因此，在获取到运动相关特征之后，可以对运动相关特征进行分析处理，以确定用于标识特征图中像素点为动态特征点的权重系数，具体的，可以以flow来表示权重系数，此时，flow的维度可以是（b, t, c），由于重心偏差是一个一维信息，进而所获得的冲量偏差也是一个一维信息，因此，在基于整个浅层网络对冲量偏差进行分析处理时，计算量相对主网络而言非常小，可忽略不计。

在获取到权重系数flow之后，可以将x*flow确定为与特征图集合中特征图相对应的动态信息，同理的，将x*(1-flow) 确定为与特征图集合中特征图相对应的静态信息。

步骤4：基于动态信息和静态信息对视频信息进行分析处理，获得与视频信息相对应的处理结果。

在获取到动态信息和静态信息之后，可以基于动态信息和静态信息对视频信息进行分析处理，从而可以获得与视频信息相对应的处理结果。具体的，对动态信息和静态信息进行分析处理的方式有很多，一种实现方式可以为直接利用动态信息的实现方式，即将动态信息直接输出，代替原始的特征图x，此时，视频理解装置变成了以重心信息/冲量偏差为特征输入的注意力模块。

另一种实现方式可以为：结合动静态信息对视频信息进行分析处理，具体的，可以将相邻两个特征图中的动态信息进行交换，而保留特征图中在该通道上的静态信息，从而可以获得处理后特征图，而后可以基于处理后特征图进行视频信息的分析处理操作，从而可以获得视频处理结果。

在又一些实例中，可以自适应地确定相邻特征图之间进行数据交换的占比信息，基于占比信息、动态信息和静态信息对相邻两个特征图进行信息交换处理，从而可以获得垂后特征图，并可以基于处理后特征图进行视频信息的分析处理操作。

为了清楚地获知到本应用实施例中所提供的技术方案的技术效果，以数据库中包含了700类60w+个视频信息、kinect700芯片为例，对本实施例中的视频理解方法进行了性能分析，具体的，在进行训练时，每个图像组由8帧图片组成，每张图片间隔8帧。为了方便说明和计算，在进行视频理解操作时，以中间一个图像组为例，通过与现有技术的实现方式进行对比可知，该视频理解方法在视频理解性能上具有较大提升，具体详见下表：

	Tsn基准	重心偏移	冲量偏移
				Top1准确率	0.5755	0.5876(↑1.21%)	0.5939 (↑1.84%)

另外，本实施例中的视频理解方法还可以结合tsm神经网络来实现，此时，对于视频信息进行分析处理的效果有进一步提升，具体详见下表：

	Tsm基准	冲量偏移
			Top1准确率	0.5932	0.5999(↑0.67%)

本应用实施例提供的技术方案，实现了一种提取计算量较小、应用场景广泛的视频信息处理方法，该刚发通过引入以重心偏差/冲量偏差作为输入的注意力机制来解耦特征图的动态信息和静态信息，并且，能够自适应地去学习需要交换的通道和交换的幅度，在可忽略的计算量下能够获得更优的准确率，弥补了常用卷积网络中只能得到内容特征的缺陷，在视频理解应用场景中，能够以极小计算量代价换取了较大的准确率提升，这样有效地提高了对视频信息进行分析处理的质量和效率。

图6为本申请实施例提供的另一种视频信息处理方法的流程示意图；参考附图6所示，本实施例提供了另一种视频信息处理方法，该方法的执行主体可以为视频信息处理装置，可以理解的是，该视频信息处理装置可以实现为软件、或者软件和硬件的组合。具体的，该视频信息处理方法可以包括：

步骤S601：响应于调用视频信息处理请求，确定视频信息处理服务对应的处理资源。

步骤S602：利用处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

具体的，本发明提供的视频信息处理方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。

针对本发明提供的方案，云端可以提供有用于完成视频信息处理方法的服务，称为视频信息处理服务。当用户需要使用该视频信息处理服务的时候，调用该视频信息处理服务，以向云端触发调用该视频信息处理服务的请求，在该请求中可以携带有与待处理视频相对应的特征图集合。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

具体的，本实施例中的上述方法步骤的实现过程、实现原理和实现效果与上述图1-图5所示实施例的方法步骤的实现过程、实现原理和实现效果相类似，本实施例未详细描述的部分，可参考对图1-图5所示实施例的相关说明。

图7为本申请实施例提供的一种视频信息处理装置的结构示意图；参考附图7所示，本实施例提供了一种视频信息处理装置，该视频信息处理装置可以执行上述图2所示的视频信息处理方法，具体的，该视频信息处理装置可以包括：

第一获取模块11，用于获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；

第一确定模块12，用于在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；

第一处理模块13，用于基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

在一些实例中，在第一确定模块12确定特征图集合中的相邻两帧特征图之间的冲量偏差时，该第一确定模块12用于执行：在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差；获取特征图集合中的相邻两帧特征图在每个特征通道上的平均质量；基于重心偏差和平均质量，确定特征图集合中的相邻两帧特征图之间的冲量偏差。

在一些实例中，在第一确定模块12基于重心偏差和平均质量，确定特征图集合中的相邻两帧特征图之间的冲量偏差时，该第一确定模块12用于执行：将重心偏差与平均质量之间的乘积值，确定为相邻两帧特征图之间的冲量偏差。

在一些实例中，在第一确定模块12在每个特征通道上，确定特征图集合中的相邻两帧特征图之间的重心偏差时，该第一确定模块12用于执行：获取相邻两帧特征图在每个特征通道上各自对应的重心信息；基于相邻两帧特征图在每个特征通道上各自对应的重心信息，确定相邻两帧特征图之间的重心偏差。

在一些实例中，在第一确定模块12获取相邻两帧特征图在每个特征通道上各自对应的重心信息时，该第一确定模块12用于执行：获取相邻两帧特征图各自对应的宽度信息和高度信息；确定相邻两帧特征图中像素点所对应的质量信息；基于宽度信息、高度信息和质量信息，确定相邻两帧特征图在每个特征通道上各自对应的重心信息。

在一些实例中，在第一确定模块12确定相邻两帧特征图中像素点所对应的质量信息时，该第一确定模块12用于执行：获取相邻两帧特征图中像素点所对应的原始质量；对相邻两帧特征图中所有像素点所对应的原始质量进行处理，获得相邻两帧特征图中像素点所对应的质量信息，质量信息大于或等于零。

在一些实例中，在第一处理模块13基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息时，该第一处理模块13用于执行：基于冲量偏差，确定特征图在每个特征通道上的运动相关特征；基于运动相关特征，确定与特征图集合中特征图相对应的动态信息和静态信息。

在一些实例中，在第一处理模块13基于冲量偏差，确定特征图在每个特征通道上的运动相关特征时，该第一处理模块13用于执行：获取用于对冲量偏差进行分析处理的浅层网络；利用浅层网络对冲量偏差进行处理，获得特征图在每个特征通道上的运动相关特征。

在一些实例中，在第一处理模块13基于运动相关特征，确定与特征图集合中特征图相对应的动态信息和静态信息时，该第一处理模块13用于执行：基于运动相关特征，确定用于标识特征图中像素点为动态特征点的权重系数；基于权重系数，确定与特征图集合中特征图相对应的动态信息和静态信息。

在一些实例中，在第一处理模块13基于权重系数，确定与特征图集合中特征图相对应的动态信息和静态信息时，该第一处理模块13用于执行：获取1与权重系数之间的差值；将权重系数与特征图之间的乘积，确定为与特征图相对应的动态信息；将差值与特征图之间的乘积，确定为与特征图相对应的静态信息。

在一些实例中，在确定与特征图集合中特征图相对应的动态信息和静态信息之后，本实施例中的第一处理模块13还用于：基于动态信息和静态信息对视频信息进行分析处理，获得与视频信息相对应的处理结果。

在一些实例中，在第一处理模块13基于动态信息和静态信息对视频信息进行分析处理时，该第一处理模块13用于执行：将特征图所对应的静态信息忽略，并基于特征图所对应的动态信息对视频信息进行分析处理。

在一些实例中，在第一处理模块13基于动态信息和静态信息对视频信息进行分析处理时，该第一处理模块13用于执行：获取第一特征图所对应的动态信息和静态信息、第二特征图所对应的动态信息和静态信息，第一特征图与第二特征图相邻；将第一特征图所对应的动态信息与第二特征图所对应的动态信息进行交换，获得第一处理后图像和第二处理后图像；基于第一处理后图像和第二处理后图像对视频信息进行分析处理。

图7所示装置可以执行图1-图5所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图5所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图7所示视频信息处理装置的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图8所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图5所示实施例中提供的视频信息处理方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

进一步的，第一处理器21还用于执行前述图1-图5所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图5所示方法实施例中视频信息处理方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图1-图5所示方法实施例中视频信息处理方法中的步骤。

图9为本申请实施例提供的另一种视频信息处理装置的结构示意图；参考附图9所示，本实施例提供了另一种视频信息处理装置，该视频信息处理装置可以执行上述图6所示的视频信息处理装方法，该视频信息处理装置可以包括：

第二确定模块31，用于响应于调用视频信息处理请求，确定视频信息处理服务对应的处理资源；

第二处理模块32，用于利用处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

图9所示装置可以执行图5-图6所示实施例的方法，本实施例未详细描述的部分，可参考对图5-图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图5-图6所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图9所示视频信息处理装置的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图10所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图5-图6所示实施例中提供的视频信息处理方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：响应于调用视频信息处理请求，确定视频信息处理服务对应的处理资源。利用处理资源执行如下步骤：获取与待处理视频相对应的特征图集合，特征图集合中包括至少两帧特征图，并且，特征图集合是通过网络模型中任意一个网络层对待处理视频进行分析处理后获得的；在时间维度上，确定特征图集合中的相邻两帧特征图之间的冲量偏差；基于冲量偏差，确定与特征图集合中特征图相对应的动态信息和静态信息。

进一步的，第二处理器41还用于执行前述图5-图6所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图5-图6所示方法实施例中视频信息处理方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图5-图6所示方法实施例中视频信息处理方法中的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种视频信息处理方法，包括：

基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息；

确定所述特征图集合中的相邻两帧特征图之间的冲量偏差，包括：

在每个特征通道上，确定所述特征图集合中的相邻两帧特征图之间的重心偏差；

获取所述特征图集合中的相邻两帧特征图在每个特征通道上的平均质量；

基于所述重心偏差和所述平均质量，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差。

2.根据权利要求1所述的方法，基于所述重心偏差和所述平均质量，确定所述特征图集合中的相邻两帧特征图之间的冲量偏差，包括：

将所述重心偏差与所述平均质量之间的乘积值，确定为相邻两帧特征图之间的冲量偏差。

3.根据权利要求1所述的方法，在每个特征通道上，确定所述特征图集合中的相邻两帧特征图之间的重心偏差，包括：

获取相邻两帧特征图在每个特征通道上各自对应的重心信息；

基于相邻两帧特征图在每个特征通道上各自对应的重心信息，确定相邻两帧特征图之间的重心偏差。

4.根据权利要求3所述的方法，获取相邻两帧特征图在每个特征通道上各自对应的重心信息，包括：

获取相邻两帧特征图各自对应的宽度信息和高度信息；

确定相邻两帧特征图中像素点所对应的质量信息；

基于所述宽度信息、高度信息和质量信息，确定相邻两帧特征图在每个特征通道上各自对应的重心信息。

5.根据权利要求4所述的方法，确定相邻两帧特征图中像素点所对应的质量信息，包括：

获取相邻两帧特征图中像素点所对应的原始质量；

对相邻两帧特征图中所有像素点所对应的原始质量进行处理，获得相邻两帧特征图中像素点所对应的质量信息，所述质量信息大于或等于零。

6.根据权利要求1所述的方法，基于所述冲量偏差，确定与所述特征图集合中特征图相对应的动态信息和静态信息，包括：

基于所述冲量偏差，确定所述特征图在每个特征通道上的运动相关特征；

基于所述运动相关特征，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

7.根据权利要求6所述的方法，基于所述冲量偏差，确定所述特征图在每个特征通道上的运动相关特征，包括：

获取用于对所述冲量偏差进行分析处理的浅层网络；

利用所述浅层网络对所述冲量偏差进行处理，获得所述特征图在每个特征通道上的运动相关特征。

8.根据权利要求6所述的方法，基于所述运动相关特征，确定与所述特征图集合中特征图相对应的动态信息和静态信息，包括：

基于所述运动相关特征，确定用于标识特征图中像素点为动态特征点的权重系数；

基于所述权重系数，确定与所述特征图集合中特征图相对应的动态信息和静态信息。

9.根据权利要求8所述的方法，基于所述权重系数，确定与所述特征图集合中特征图相对应的动态信息和静态信息，包括：

获取1与所述权重系数之间的差值；

将所述权重系数与所述特征图之间的乘积，确定为与所述特征图相对应的动态信息；

将所述差值与所述特征图之间的乘积，确定为与所述特征图相对应的静态信息。

10.根据权利要求1所述的方法，在确定与所述特征图集合中特征图相对应的动态信息和静态信息之后，所述方法还包括：

基于所述动态信息和所述静态信息对所述视频信息进行分析处理，获得与所述视频信息相对应的处理结果。

11.根据权利要求10所述的方法，基于所述动态信息和所述静态信息对所述视频信息进行分析处理，包括：

将所述特征图所对应的静态信息忽略，并基于所述特征图所对应的动态信息对所述视频信息进行分析处理。

12.根据权利要求10所述的方法，基于所述动态信息和所述静态信息对所述视频信息进行分析处理，包括：

获取第一特征图所对应的动态信息和静态信息、第二特征图所对应的动态信息和静态信息，所述第一特征图与所述第二特征图相邻；

将所述第一特征图所对应的动态信息与所述第二特征图所对应的动态信息进行交换，获得第一处理后图像和第二处理后图像；

基于所述第一处理后图像和所述第二处理后图像对所述视频信息进行分析处理。

13.一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-12中任意一项所述的视频信息处理方法。