CN112131978B

CN112131978B - 一种视频分类方法、装置、电子设备和存储介质

Info

Publication number: CN112131978B
Application number: CN202010941467.1A
Authority: CN
Inventors: 赵教生
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2023-09-01
Anticipated expiration: 2040-09-09
Also published as: CN112131978A

Abstract

本申请公开了一种视频分类方法、装置、电子设备和存储介质，可以获取目标视频的至少一个目标视频图像，并提取所述目标视频图像的全局特征图；识别所述目标视频图像的全局特征图的至少一个显著性区域；提取各个显著性区域的区域特征向量；基于各个显著性区域对目标视频的分类结果的重要性，对全局特征图以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到目标视频的视频特征向量；基于视频特征向量对目标视频进行分类，得到目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

Description

一种视频分类方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种视频分类方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，多媒体的应用越来越广泛，视频种类日益丰富，视频数量也急剧增长。人们可以观看的视频也越来越多样化，为了方便用户从海量的视频中快速获取想要观看的视频，视频播放平台通常会将该视频播放平台中的大量视频进行分类。视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用。此外，视频分类的技术在监控、检索以及人机交互等领域被广泛应用。

在目前的相关技术中，一般先对待分类视频进行视频帧抽取，得到多个目标视频图像，通过神经网络提取各个目标视频图像的图像特征信息，再将帧级别的图像特征信息变换为视频级别的视频特征信息，具体可以对各个目标视频图像的图像特征信息进行融合，得到待分类视频的视频特征信息，最后基于视频特征信息对视频进行分类。但是这样对视频特征的提取不够充分，视频特征信息的表征力较弱，使得视频分类结果的准确度相对较低。

发明内容

本申请实施例提供一种视频分类方法、装置、电子设备和存储介质，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

本申请实施例提供一种视频分类方法，包括：

获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；

对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；

对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；

基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；

将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；

基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

相应的，本申请实施例提供一种视频分类装置，包括：

获取单元，用于获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；

识别单元，用于对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；

提取单元，用于对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；

第一融合单元，用于基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；

第二融合单元，用于将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；

分类单元，用于基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

可选的，在本申请的一些实施例中，所述识别单元可以包括滑动子单元、第一识别子单元和第一确定子单元，如下：

所述滑动子单元，用于通过预设窗口在所述目标视频图像的全局特征图上滑动，获取所述目标视频图像的全局特征图的多个候选区域；

第一识别子单元，用于基于所述全局特征图中各个候选区域的特征图信息，对各个候选区域进行显著性识别；

第一确定子单元，用于基于识别结果，从所述候选区域中确定出至少一个显著性区域。

可选的，在本申请的一些实施例中，所述识别单元还可以包括边框回归子单元、第二识别子单元和筛选子单元，如下：

所述边框回归子单元，用于将确定出的所述显著性区域作为候选显著性区域，对所述候选显著性区域进行边框回归，得到边框调整后的候选显著性区域；

第二识别子单元，用于基于所述全局特征图中边框调整后的候选显著性区域的特征图信息，对所述边框调整后的候选显著性区域进行显著性识别；

筛选子单元，用于基于识别结果对所述边框调整后的候选显著性区域进行筛选，得到所述目标视频图像的显著性区域。

可选的，在本申请的一些实施例中，所述提取单元具体可以用于对所述目标视频图像的全局特征图中各个显著性区域进行池化处理，得到所述目标视频图像的各个显著性区域的区域特征向量。

可选的，在本申请的一些实施例中，所述第一融合单元可以包括第二确定子单元和加权子单元，如下：

所述第二确定子单元，用于基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，确定所述目标视频图像的各个显著性区域对应的权重；

加权子单元，用于基于所述权重，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行加权处理，得到所述目标视频图像的图像特征向量。

可选的，在本申请的一些实施例中，所述第二融合单元可以包括聚类子单元、第一计算子单元和第一融合子单元，如下：

所述聚类子单元，用于对各个目标视频图像的图像特征向量进行聚类处理，得到至少一个聚类集合，并确定各个聚类集合中作为聚类中心的中心特征向量；

第一计算子单元，用于针对每一个聚类集合，计算所述聚类集合中的非中心特征向量与中心特征向量的差值，得到所述聚类集合的特征残差向量；

第一融合子单元，用于将各个聚类集合的特征残差向量进行融合，得到所述目标视频的视频特征向量。

可选的，在本申请的一些实施例中，所述聚类子单元具体可以用于确定聚类集合的数量K，其中，K为不小于1的正整数；

从所述目标视频图像的图像特征向量中，选取K个图像特征向量分别作为K个聚类集合的中心特征向量；

计算各个目标视频图像的图像特征向量与各个中心特征向量的向量距离；

将各个图像特征向量分别添加到与所述图像特征向量的向量距离最近的中心特征向量所属的聚类集合中，得到K个聚类集合；

针对每个聚类集合，从所述聚类集合中选取符合聚类中心条件的图像特征向量作为新的中心特征向量，返回执行所述计算各个目标视频图像的图像特征向量与各个中心特征向量的向量距离的步骤，直到各个聚类集合的中心特征向量满足聚类结束条件，获得K个聚类集合，并获得各聚类集合中作为聚类中心的中心特征向量。

可选的，在本申请的一些实施例中，所述获取单元具体可以用于通过分类模型，对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图。

可选的，在本申请的一些实施例中，所述识别单元具体可以用于通过所述分类模型，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域。

可选的，在本申请的一些实施例中，所述分类单元具体可以用于通过所述分类模型，基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

可选的，在本申请的一些实施例中，所述视频分类装置还包括训练单元，所述训练单元用于对分类模型进行训练；所述训练单元可以包括第一获取子单元、第一提取子单元、第二提取子单元、第二融合子单元、第三确定子单元、第二计算子单元和调整子单元，如下：

所述第一获取子单元，用于获取训练数据，所述训练数据包括样本视频的样本视频图像、以及所述样本视频对应的真实类别信息；

第一提取子单元，用于通过预设分类模型，对所述样本视频图像进行特征提取，得到所述样本视频图像对应的全局特征图，对所述样本视频图像的全局特征图进行显著性区域识别，确定所述样本视频图像的全局特征图的至少一个预测显著性区域；

第二提取子单元，用于对所述样本视频图像的全局特征图中各个预测显著性区域进行特征提取，得到所述样本视频图像的各个预测显著性区域的区域特征向量，并基于所述样本视频图像的各个预测显著性区域对所述样本视频的分类结果的重要性，对所述样本视频图像的全局特征图的特征图向量以及各个预测显著性区域的区域特征向量进行融合，得到所述样本视频图像的图像特征向量；

第二融合子单元，用于将各个样本视频图像的图像特征向量进行融合，得到所述样本视频的视频特征向量；

第三确定子单元，用于基于所述视频特征向量，确定所述样本视频在各个预设类别上的预测概率信息；

第二计算子单元，用于计算所述预测概率信息和所述样本视频的真实类别信息之间的第一损失值；

调整子单元，用于基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

可选的，在本申请的一些实施例中，所述训练单元还可以包括第三计算子单元、第四确定子单元、第二获取子单元和第三获取子单元，其中，所述第三计算子单元用于调整子单元基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型之前，如下：

所述第三计算子单元，用于计算所述第一损失值对所述样本视频的视频特征向量的梯度，并基于所述梯度，绘制所述样本视频的样本视频图像的全局特征图对应的热力图；

第四确定子单元，用于基于所述样本视频的预测概率信息，确定所述样本视频的类别信息；

第二获取子单元，用于当所述样本视频的类别信息与所述真实类别信息一致时，基于所述热力图，获取所述样本视频图像的全局特征图的显著性区域，并将获取的所述显著性区域设置为所述样本视频图像的真实显著性区域；

第三获取子单元，用于当所述样本视频的类别信息与所述真实类别信息不一致时，基于所述热力图，获取所述样本视频图像的全局特征图的非显著性区域，并将获取的所述非显著性区域设置为所述样本视频图像的非真实显著性区域；

所述调整子单元具体可以用于基于所述真实显著性区域和所述非真实显著性区域，计算所述样本视频图像的预测显著性区域的第二损失值；基于所述第一损失值和所述第二损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

可选的，在本申请的一些实施例中，步骤“基于所述真实显著性区域和所述非真实显著性区域，计算所述样本视频图像的预测显著性区域的第二损失值”可以包括：

基于所述样本视频图像的预测显著性区域和所述真实显著性区域的区域重叠程度，确定所述预测显著性区域的真实显著性区域概率；

基于所述样本视频图像的预测显著性区域和所述非真实显著性区域的区域重叠程度，确定所述预测显著性区域的真实显著性区域概率；

通过预设分类模型，基于所述预测显著性区域的特征图信息，确定所述预测显著性区域为真实的显著性区域的预测概率；

基于所述预测显著性区域的预测概率和对应的真实显著性区域概率，计算所述预测显著性区域的分类损失；

基于所述真实显著性区域概率不低于预设概率阈值的预测显著性区域，在所述样本视频图像的全局特征图中的位置信息，以及所述真实显著性区域在所述样本视频图像的全局特征图中的位置信息，计算所述预测显著性区域的回归损失；

将所述分类损失和所述回归损失进行融合，得到所述样本视频图像的预测显著性区域的第二损失值。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的视频分类方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的视频分类方法中的步骤。

本申请实施例提供了一种视频分类方法、装置、电子设备和存储介质，可以获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频分类方法的场景示意图；

图1b是本申请实施例提供的视频分类方法的流程图；

图2a是本申请实施例提供的视频分类方法的另一流程图；

图2b是本申请实施例提供的视频分类方法的另一流程图；

图3a是本申请实施例提供的视频分类装置的结构示意图；

图3b是本申请实施例提供的视频分类装置的另一结构示意图；

图3c是本申请实施例提供的视频分类装置的另一结构示意图；

图3d是本申请实施例提供的视频分类装置的另一结构示意图；

图3e是本申请实施例提供的视频分类装置的另一结构示意图；

图3f是本申请实施例提供的视频分类装置的另一结构示意图；

图3g是本申请实施例提供的视频分类装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频分类方法、装置、电子设备和存储介质。该视频分类装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的视频分类方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行视频分类方法为例。本申请实施例提供的视频分类系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，视频分类装置可以集成在服务器中。

其中，终端10可以对目标视频进行视频帧抽取，得到目标视频的至少一个目标视频图像，并将所述目标视频图像发送给服务器11，以便于服务器11基于所述目标视频图像的特征信息，对目标视频进行分类，并返回目标视频的类别标签给终端10。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等。

其中，服务器11，可以用于：获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图；对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签，并将所述类别标签发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。

上述服务器11对视频进行分类的步骤，也可以由终端10执行。

本申请实施例提供的视频分类方法涉及人工智能领域中的计算机视觉技术。本申请实施例可以通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频分类装置的角度进行描述，该视频分类装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。

本申请实施例的视频分类方法可以应用于各种需要对视频进行分类的场景中，其中，视频时长和视频种类不限。例如，某视频平台需要对上百万个视频进行分类，为每个视频打上至少一个类别标签，可以通过本实施例提供的视频分类方法，可快速地对海量视频进行分类，且本实施例提供的视频分类方法可以通过融合各个显著性区域的区域特征向量，增强视频特征向量的表征力，视频分类的准确度较高。

如图1b所示，该视频分类方法的具体流程可以如下：

101、获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频。

其中，目标视频为待分类的视频，它的视频类型不限，视频时长不限。目标视频可以对应一个类别标签，也可以对应多个类别标签。类别标签具体可以是视频中包含的元素，如“猫”和“狗”等，也可以是视频情景给用户的感受，如“惊险”和“有趣”等。

本实施例中，可以对目标视频进行视频帧抽取，得到目标视频的至少一个目标视频图像。具体地，可以按照一定的时间间隔，从目标视频中抽取目标视频图像；也可以对目标视频抽取一定数量的目标视频图像，可以理解的是，具体的视频帧抽取方式可以根据实际情况进行设置，本实施例对此没有限制。

其中，在对各个目标视频图像进行特征提取之前，可以对各个目标视频图像进行预处理，该预处理可以包括对各个目标视频图像进行图像大小的调整和图像数据增强等。图像数据增强可以包括直方图均衡、锐化和平滑等。

本实施例中，可以对各个目标视频图像进行卷积处理，得到各个目标视频图像对应的全局特征图。具体地，可以通过神经网络来提取目标视频图像的特征信息，该神经网络可以是开端模型(Inception)、效率网络(EfficientNet)、视觉几何组网络(VGGNet，VisualGeometry Group Network)、残差网络(ResNet，Residual Network)和密集连接卷积网络(DenseNet，Dense Convolutional Network)等等，但是应当理解的是，本实施例的神经网络并不仅限于上述列举的几种类型。

其中，在神经网络的每个卷积层，数据是以三维形式存在的，可以把它看成许多个二维图片叠在一起，其中每一个二维图片称为一个特征图(feature map)。

102、对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域。

本实施例中，对最终预测目标视频的类别标签产生主要影响的区域称为显著性区域。在目前相关的视频分类技术中，对于目标视频的每一帧目标视频图像，都是将每一帧当做一个整体来进行卷积操作，也就是帧的整个区域都是同等对待的，但是，视频的每一个类别标签都是与视频中某些帧的某些区域相对应的，这些区域是视频分类中应该重点关注的区域，比如某视频的类别标签为“森林”和“斑马”，其分类结果是基于该视频中包含“森林”和/或“斑马”的视频帧的区域得到的。本实施例加入对这些区域(也就是显著性区域)的关注，通过提取各个显著性区域的区域特征向量，并将其进行融合，来增强视频特征向量的表征力，有助于提高视频多分类的效果。

可选的，在一些实施例中，步骤“对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域”，可以包括：

通过预设窗口在所述目标视频图像的全局特征图上滑动，获取所述目标视频图像的全局特征图的多个候选区域；

基于所述全局特征图中各个候选区域的特征图信息，对各个候选区域进行显著性识别；

基于识别结果，从所述候选区域中确定出至少一个显著性区域。

其中，在另一些实施例中，也可以通过图像分割对目标视频图像的全局特征图进行显著性区域识别。

其中，预设窗口的长宽比、尺寸和角度等可以是预先设置好的。在一些实施例中，预设窗口可以包括多种长宽比和尺寸。长宽比和尺寸可以根据实际情况进行设置，本实施例对此不作限制。

其中，步骤“通过预设窗口在所述目标视频图像的全局特征图上滑动，获取所述目标视频图像的全局特征图的多个候选区域”中，具体可以包括：基于滑动的预设窗口，在全局特征图上滑动，即对目标视频图像的全局特征图进行遍历，在目标视频图像的全局特征图上划出多个候选区域。在一些实施例中，预设窗口包括多种尺寸和长宽比，则基于预设窗口，划分得到的候选区域尺寸和长宽比不同。

其中，步骤“基于所述全局特征图中各个候选区域的特征图信息，对各个候选区域进行显著性识别”中，对于每个候选区域，具体可以针对全局特征图中候选区域对应的参数，将这部分参数视为候选区域的特征图信息，基于候选区域的特征图信息，对该候选区域进行显著性识别，确定该候选区域是否为显著性区域，具体地，可以通过图像轮廓检测等目标检测方法，对候选区域进行显著性识别，识别候选区域中是否存在影响目标视频的分类结果的元素，若存在，则可以将该候选区域确定为显著性区域。

比如，可以检测候选区域中是否存在“猫”、“猪”、“森林”等元素，具体可以将候选区域的特征图信息和这些元素的特征信息进行相似度比较，当相似度大于预设值时，将该候选区域确定为显著性区域。

本实施例中，对显著性区域进行识别的子网络可以采用区域提取网络(RPN，Region Proposal Network)，通过RPN，可以基于滑动的预设窗口S＝(x,y,w,h)，生成尺寸和长宽比不同的候选区域以及得到各个候选区域的位置信息，并基于候选区域对应的特征图信息，从候选区域确定出显著性区域。其中，(x，y)表示预设窗口的中心点，w和h表示预设窗口的宽和高，预设窗口的参数w和h可以根据实际需求进行设置。

可选的，在一些实施例中，步骤“基于识别结果，从所述候选区域中确定出至少一个显著性区域”之后，还可以包括：

将确定出的所述显著性区域作为候选显著性区域，对所述候选显著性区域进行边框回归，得到边框调整后的候选显著性区域；

基于所述全局特征图中边框调整后的候选显著性区域的特征图信息，对所述边框调整后的候选显著性区域进行显著性识别；

基于识别结果对所述边框调整后的候选显著性区域进行筛选，得到所述目标视频图像的显著性区域。

其中，边框回归(Bounding Box Regression)是目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。

其中，通过对候选显著性区域做边框回归，可以使检测到的显著性区域定位更加接近真实区域，提高定位准确度。可以对边框调整后的候选显著性区域再次进行显著性识别。具体地，可以计算边框调整后的候选显著性区域的特征图信息与预设元素(具体可以是与视频分类结果强相关的元素)的特征信息的相似度，基于相似度的大小，对边框调整后的候选显著性区域进行筛选。比如，可以将相似度大于预设相似度的边框调整后的候选显著性区域作为目标视频图像的显著性区域；也可以基于相似度大小，对边框调整后的候选显著性区域从大到小进行排列，将前N个边框调整后的候选显著性区域作为目标视频图像的显著性区域。

103、对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量。

其中，针对各个显著性区域，可以对显著性区域在所述目标视频图像的全局特征图中对应的特征图信息进行再次特征提取，得到所述显著性区域的区域特征向量。

可选的，在一些实施例中，步骤“对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量”，可以包括：

对所述目标视频图像的全局特征图中各个显著性区域进行池化处理，得到所述目标视频图像的各个显著性区域的区域特征向量。

其中，可以通过池化处理对各个显著性区域的特征图信息进行降维，该池化处理可以包括最大池化(Max-pooling，Maximum Pooling)、平均池化(Avg-pooling，AveragePooling)和广义均值池化(GEM-pooling，Generalized-mean Pooling)等。应当理解的是，本实施例的池化处理并不仅限于上述列举的几种类型。

可选的，在一些实施例中，也可以对目标视频图像的全局特征图进行池化处理，得到池化后的全局特征图的特征图向量。

104、基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量。

一些实施例中，融合方式具体可以是将全局特征图的特征图向量和各个显著性区域的区域特征向量进行拼接，得到目标视频图像的图像特征向量。比如，可以按照特征向量的尺度大小，将全局特征图的特征图向量和各个显著性区域的区域特征向量从大到小进行拼接，得到目标视频图像的图像特征向量。

可选的，在一些实施例中，步骤“基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量”，可以包括：

基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，确定所述目标视频图像的各个显著性区域对应的权重；

基于所述权重，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行加权处理，得到所述目标视频图像的图像特征向量。

其中，全局特征图的权重可以视为1，也可以给全局特征图设置一个权重，具体可以根据实际情况进行设置，本实施例对此不作限制。

在一些实施例中，各个显著性区域对应的权重可以是预先设置好的，具体可以根据实际情况进行设置，本实施例对此不作限制。在另一些实施例中，各个显著性区域对应的权重还可以是通过神经网络的全连接层的学习得到。

可选的，在一具体实施例中，可以通过keylessattention机制(无键注意力机制)对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量。

105、将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量。

在一些实施例中，可以通过(下一个)局部聚合描述符向量(NeXtVLAD，NextVector of Local Aggregated Descriptors)对各个目标视频图像的图像特征向量进行融合，得到目标视频的视频特征向量。

可选的，在一些实施例中，融合方式具体可以将各个目标视频图像的图像特征信息进行拼接，得到目标视频的视频特征向量。具体地，按照图像特征向量的尺度大小，将各个目标视频图像的图像特征向量从大到小进行拼接，得到目标视频的视频特征向量。

可选的，在另一些实施例中，步骤“将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量”，可以包括：

对各个目标视频图像的图像特征向量进行聚类处理，得到至少一个聚类集合，并确定各个聚类集合中作为聚类中心的中心特征向量；

针对每一个聚类集合，计算所述聚类集合中的非中心特征向量与中心特征向量的差值，得到所述聚类集合的特征残差向量；

将各个聚类集合的特征残差向量进行融合，得到所述目标视频的视频特征向量。

其中，聚类处理的方式可以有很多种，例如，可以为K-means(K-均值)聚类算法，K-medoids(K-中心点)算法、DBSCAN(基于密度的聚类算法)、层次聚类算法或者自组织映射聚类算法等等，以上举例不应理解为对本申请的限制。

可选的，在一些实施例中，步骤“对各个目标视频图像的图像特征向量进行聚类处理，得到至少一个聚类集合，并确定各个聚类集合中作为聚类中心的中心特征向量”，可以包括：

确定聚类集合的数量K，其中，K为不小于1的正整数；

其中，图像特征向量和中心特征向量之间的向量距离可以表示二者之间的相似度。向量距离越小，相似度越大。计算图像特征向量和中心特征向量之间的向量距离的方式有很多种，如可以通过余弦距离或欧式距离等来计算，本实施例对此不作限制。

其中，步骤“针对每个聚类集合，从所述聚类集合中选取符合聚类中心条件的图像特征向量作为新的中心特征向量”中，聚类中心条件可以是与所述聚类集合的分布重心距离最小，具体地，可以针对每个聚类集合中图像特征向量的分布信息，确定该聚类集合的分布重心，将与该分布重心距离最小的图像特征向量作为新的中心特征向量。

其中，对于每一个聚类集合而言，分别计算该聚类集合最新的中心特征向量与聚类过程中最近一次所采用的中心特征向量是否相同，即计算二者之间的向量距离是否为0。若相同，则可以认为该聚类集合的聚类中心没有变化，如果所有聚类集合的聚类中心都不再变化，则聚类过程完成，得到K个聚类集合，并获得各聚类集合中作为聚类中心的中心特征向量；如果不是所有聚类集合的聚类中心都没有变化，则返回步骤“计算各个目标视频图像的图像特征向量与各个中心特征向量的向量距离”，直到每个聚类集合的聚类中心不再发生变化。

需要说明的是，聚类过程每个聚类集合的最新的中心特征向量与该聚类集合最近一次所采用的聚类中心相同只是结束循环的一个可选条件，该可选条件也可以是这两个聚类中心之间的差值小于预设值，该预设值可以根据实际情况进行设置。

106、基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

其中，可以通过分类器，基于视频特征向量，来预测目标视频的类别标签。该分类器具体可以是支持向量机(SVM，Support Vector Machine)，也可以是全连接深度神经网络(DNN，Deep Neual Networks)等等，本实施例对此不做限制。

其中，对目标视频进行分类，具体可以是多标签分类(multi-label)，目标视频包含多个类别标签的分类方式叫做多标签分类。

可选的，在一些实施例中，步骤“对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图”，可以包括：

通过分类模型，对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图；

所述对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域，包括：

通过所述分类模型，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；

所述基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签，包括：

通过所述分类模型，基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

其中，该分类模型可以用于提取目标视频图像的全局特征图，对目标图像的全局特征图进行显著性区域识别，得到目标视频图像的全局特征图的至少一个显著性区域；再融合目标视频图像的各个显著性区域的区域特征信息与全局特征图的特征图向量，得到目标视频图像的图像特征向量；从而将各个目标视频图像的图像特征向量进行融合，得到表征力更强的视频特征向量，并基于该视频特征向量，对目标视频进行分类，得到目标视频的至少一个类别标签。

其中，该分类模型可以是视觉几何组网络(VGGNet，Visual Geometry GroupNetwork)、残差网络(ResNet，Residual Network)和密集连接卷积网络(DenseNet，DenseConvolutional Network)等等，但是应当理解的是，本实施例的分类模型并不仅限于上述列举的几种类型。

需要说明的是，该分类模型由多个带有标签的训练数据训练而成，本实施例的训练数据可以包括多个样本视频的样本视频图像，该标签是指样本视频对应的真实类别信息；该分类模型具体可以由其他设备进行训练后，提供给该视频分类装置，或者，也可以由该视频分类装置自行进行训练。

若由该视频分类装置自行进行训练，则步骤“通过分类模型，对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图”之前，还可以包括：

获取训练数据，所述训练数据包括样本视频的样本视频图像、以及所述样本视频对应的真实类别信息；

通过预设分类模型，对所述样本视频图像进行特征提取，得到所述样本视频图像对应的全局特征图，对所述样本视频图像的全局特征图进行显著性区域识别，确定所述样本视频图像的全局特征图的至少一个预测显著性区域；

对所述样本视频图像的全局特征图中各个预测显著性区域进行特征提取，得到所述样本视频图像的各个预测显著性区域的区域特征向量，并基于所述样本视频图像的各个预测显著性区域对所述样本视频的分类结果的重要性，对所述样本视频图像的全局特征图的特征图向量以及各个预测显著性区域的区域特征向量进行融合，得到所述样本视频图像的图像特征向量；

将各个样本视频图像的图像特征向量进行融合，得到所述样本视频的视频特征向量；

基于所述视频特征向量，确定所述样本视频在各个预设类别上的预测概率信息；

计算所述预测概率信息和所述样本视频的真实类别信息之间的第一损失值；

基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

其中，该训练过程可以基于反向传播算法对预设分类模型的参数进行调整，以使通过预设分类模型得到的预测概率信息与真实类别信息之间的第一损失值小于预设值，该预设值可以根据实际情况进行设置，本实施例对此不作限制。例如，可以为了提高分类模型的分类准确度，将该预设值设置得小一些。

其中，样本视频的真实类别信息具体可以是样本视频在各个预设类别上的真实概率，在真实类别上的真实概率为1，在除真实类别以外的其他预设类别上的真实概率为0。

其中，对预设分类模型参数的调整可以包括对该预设分类模型中神经元数量的调整，和各层神经元之间连接权重以及偏置的调整等等。

其中，一般来说，预设分类模型在某个预设类别上的预测概率超过阈值，则可以认为该目标视频是该预设类别上的视频。在预设分类模型的训练过程中，如果预设分类模型预测出来的类别信息与真实类别信息一致时，也就是说，通过预设分类模型对样本视频的类别标签预测对了，则可以基于此次预测过程中涉及的参数，分析得到热力图，可以对该热力图进行显著性区域识别，得到样本视频图像的真实显著性区域。在预设分类模型的训练过程中，如果预设分类模型预测出来的类别信息与真实类别信息不一致时，也就是说，通过预设分类模型对样本视频的类别标签预测错了，则可以基于此次预测过程中涉及的参数，分析得到热力图，并根据该热力图获取样本视频图像的非真实显著性区域。

在一些实施例中，可以通过梯度加权的类激活图(Grad-CAM，Grad-ClassActivation Map)来分析得到热力图，它是先计算第一损失值对所述样本视频的视频特征向量的梯度，用梯度的全局平均来计算样本视频图像的全局特征图中各区域对应的权重，基于全局特征图中各区域权重的大小，可以描绘出全局特征图对应的热力图。其中，目标视频的视频特征向量具体可以是由目标视频的各个目标视频图像对应的图像特征向量拼接得到的。Grad-CAM其基本思路是对应于某个分类的特征映射的权重可以转换为利用反传梯度来表达这个权重。

具体地，如果对样本视频的类别标签预测正确，那么可以将Grad-CAM分析的热力图区域作为正样本，如果对样本视频的类别标签预测错误，那么Grad-CAM分析的热力图区域作为负样本。

具体地，在一些实施例中，步骤“基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型”之前，还可以包括：

计算所述第一损失值对所述样本视频的视频特征向量的梯度，并基于所述梯度，绘制所述样本视频的样本视频图像的全局特征图对应的热力图；

基于所述样本视频的预测概率信息，确定所述样本视频的类别信息；

当所述样本视频的类别信息与所述真实类别信息一致时，基于所述热力图，获取所述样本视频图像的全局特征图的显著性区域，并将获取的所述显著性区域设置为所述样本视频图像的真实显著性区域；

当所述样本视频的类别信息与所述真实类别信息不一致时，基于所述热力图，获取所述样本视频图像的全局特征图的非显著性区域，并将获取的所述非显著性区域设置为所述样本视频图像的非真实显著性区域；

所述基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型，包括：

基于所述真实显著性区域和所述非真实显著性区域，计算所述样本视频图像的预测显著性区域的第二损失值；

基于所述第一损失值和所述第二损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

其中，样本视频图像的真实显著性区域可以看作是对显著性区域进行监督训练过程中的正样本；样本视频图像的非真实显著性区域可以看作是对显著性区域进行监督训练过程中的负样本。

其中，步骤“基于所述第一损失值和所述第二损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型”，具体可以包括：

将所述第一损失值和所述第二损失值进行融合，得到总损失值；

基于所述总损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

其中，第一损失值和第二损失值的融合方式具体可以是将第一损失值和第二损失值进行加权求和，得到总损失值。

具体地，第一损失值为标签分类的损失函数，其计算过程可以如式子(1)所示：

其中，Loss_T为第一损失值，w和b为分类模型的参数，T为样本视频的类别标签的数量，t为不大于T的正整数，为样本视频在第t个预设类别上的预测概率，y_t为样本视频在第t个预设类别上的真实概率(即真实类别信息)，具体为0或1，x为样本视频的视频特征向量。Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线，它常被用作神经网络的激活函数，将变量映射到0,1之间，z为定义符号，为Sigmoid函数的变量。

可选的，在一些实施例中，步骤“基于所述真实显著性区域和所述非真实显著性区域，计算所述样本视频图像的预测显著性区域的第二损失值”，可以包括：

其中，区域重叠程度具体可以用区域交并比表示。在目标检测(ObjectDetection)中,交并比(IoU，Intersection over Union)是指两个区域交集与并集的比值,值在[0,1]之间，它可以用来表示两个集合的重合程度。

可选的，在一些实施例中，可以将与所述真实显著性区域的区域交并比大于第一预设值的预测显著性区域的真实显著性区域概率设置为1，也就是说，将与所述真实显著性区域的区域交并比大于第一预设值的预测显著性区域认为是真实显著性区域；将与所述非真实显著性区域的区域交并比大于第二预设值的预测显著性区域的真实显著性区域概率设置为0，也就是说，将与所述非真实显著性区域的区域交并比大于第二预设值的预测显著性区域认为是非显著性区域；第一预设值和第二预设值可以根据实际情况进行设置。

其中，真实显著性区域概率可以看作是各个预测显著性区域的真实标签。

例如，在一具体实施例中，可以将与真实显著性区域的区域交并比最高的预测显著性区域的真实显著性区域概率设置为1，还可以将与真实显著性区域的区域交并比大于0.7的预测显著性区域的真实显著性区域概率设置为1。

其中，预设概率阈值可以根据实际情况进行设置。在一些实施例中，可以只对真实显著性区域概率为1的预设显著性区域计算回归损失。

具体的，第二损失值和总损失值的计算过程可以如式子(4)和(5)所示：

L_sum＝Loss_T+a·L({p_i},{t_i}) (5)

其中，L_sum表示总损失值，α表示第一损失值和第二损失值的融合权重，L({p_i},{t_i})表示第二损失值。第二损失值由两部分组成，分别是分类损失和回归损失，λ是平衡分类损失和回归损失的融合权重。式子(4)中，表示分类损失，/>表示回归损失，i表示各个预测显著性区域的索引值，p_i为第i个预测显著性区域为真实的显著性区域的预测概率，/>为第i个预测显著性区域对应的真实显著性区域概率，t_i表示预测显著性区域在所述样本视频图像的全局特征图中的位置信息，/>表示预测显著性区域对应的真实显著性区域在所述样本视频图像的全局特征图中的位置信息，N_cls表示预测显著性区域的数量，N_reg表示真实显著性区域概率不低于预设概率阈值的预测显著性区域的数量。

其中，对于边界框(即预测显著性区域)的回归损失，位置信息t可以采用4个坐标的参数化：x，y，w，和h；(x，y)表示框的中心坐标，w和h分别表示框的宽度和高度。

本申请可以通过融合视频显著性区域的特征信息，来提升视频标签分类效果，该方法可以运用于视频的多标签分类场景中，下游可以根据预测的标签进行相关推荐和视频检索。

由上可知，本实施例电子设备可以获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

根据前面实施例所描述的方法，以下将以该视频分类装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种视频分类方法，如图2a所示，该视频分类方法的具体流程可以如下：

201、服务器对目标视频进行视频帧抽取，得到至少一个目标视频图像。

202、服务器对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图。

203、服务器通过滑动的预设窗口，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域。

可选的，在一些实施例中，步骤“服务器通过滑动的预设窗口，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域”，可以包括：

其中，可以通过区域提取网络RPN来识别全局特征图的显著性区域，RPN可以通过反向传播和随机梯度下降来端到端训练，具体训练过程可以参考上述步骤106中的描述。RPN网络输入的是全局特征图，RPN网络用于产生候选区域，再通过识别网络对候选区域进行分类识别和预测框的二次修正。具体地，可以设置多个尺度和纵横比的预设窗口，从而得到多个尺度和纵横比的候选区域，再对候选区域进行分类和回归。

例如，可以使用3个尺度和3个纵横比的预设窗口，在全局特征图的每个滑动位置上产生k＝9个候选区域，也就是说，通过滑动窗口在全局特征图的每个点设置9个候选区域(3种长宽比*3种尺度)。对于W*H大小的全局特征图(通常为2,400)，总共有W*H*k个候选区域。

204、服务器对所述目标视频图像的全局特征图中各个显著性区域进行池化处理，得到所述目标视频图像的各个显著性区域的区域特征向量。

205、服务器基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行加权融合，得到所述目标视频图像的图像特征向量。

206、服务器将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量。

其中，步骤“将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量”，可以包括：

确定聚类集合的数量K，其中，K为不小于1的正整数；

207、服务器基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

在获得目标视频的类别标签后，可以为目标视频标记上该类别标签。视频播放平台可以根据这些类别标签进行相关的视频推送，用户也可以根据视频类别标签来对视频进行检索。

在一实施例中，可以通过分类模型对目标视频进行多标签分类。具体地，如图2b所示，可以对目标视频进行视频帧抽取，得到N帧目标视频图像，每一帧目标视频图像通过分类模型的骨干(backbone)网络提取全局特征图，该骨干网络可以是Inception网络。针对每一帧目标视频图像，在全局特征图基础上，可以通过区域提取网络(RPN)选定一些候选的显著性区域，再对每个显著性区域进行池化处理，得到各个显著性区域的区域特征向量，再将全局特征图和各个显著性区域的区域特征向量进行融合，得到每一帧目标视频图像的图像特征向量，再将N帧的图像特征向量进行融合，得到目标视频的视频特征向量，基于该视频特征向量，对目标视频进行分类。

其中，在分类模型的训练过程中，还可以对RPN网络的提取出来的显著性区域根据可视化的结果进行监督训练，具体过程可以参考上述步骤106中的描述。具体地，可以通过Grad-CAM分析的热力图(即类激活图)，来获取显著性区域的正负样本，进而对显著性区域的提取网络进行训练。

在目前视频分类的相关技术中，有基于图像卷积神经网络的视频分类、基于视频双流的视频分类和基于三维卷积的视频分类等。但是，这些方法都是将视频帧当做一个整体来进行卷积操作，也就是帧的整个区域都是同等对待的，没有针对显著性区域做优化。

其中，基于图像卷积神经网络的视频分类，它可以对视频抽取N帧，每一帧图片再通过卷积神经网络提取特征图，再将特征图通过全连接或者池化的方式转变成特征信息，这样每一帧就可以得到一个特征信息表示，然后将所有帧的特征信息进行平均或者拼接来表示视频的特征信息，在最后的视频特征信息表示上接多标签分类层进行训练。

其中，基于视频双流(tow-stream)的视频分类：对视频抽取N帧，每一帧通过卷积神经网络提取特征图和特征信息(embedding)，同时多帧之间计算光流信息，形成光流图片输入卷积神经网络中，同样得到光流的特征图和embedding,将多帧图片的embedding和光流embedding分别进行融合，再分别算在每个标签上的概率，将图片在每个标签上的概率分数和光流在每个标签上的概率分数进行融合，得到最终视频在每个标签上的概率得分。

其中，基于三维卷积的视频分类：引入了三维卷积操作，可以更好的捕获视频流之间的空间信息，同时针对多帧进行卷积操作，既能抽取每一帧的空间域信息，还能抽取帧间的时间域信息。

本申请可以识别视频帧的显著性区域，提取显著性区域的区域特征信息，通过融合视频显著性区域的区域特征信息，来增强视频特征信息的表征力，有助于提高视频多分类的效果。相较于不关注显著性区域的视频分类方法，本申请的视频分类结果在平均检索精度(mAP，mean average presicion)的指标上提高了很多。

由上可知，本实施例可以通过服务器对目标视频进行视频帧抽取，得到至少一个目标视频图像；对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图；通过滑动的预设窗口，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行池化处理，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行加权融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

为了更好地实施以上方法，本申请实施例还提供一种视频分类装置，如图3a所示，该视频分类装置可以包括获取单元301、识别单元302、提取单元303、第一融合单元304、第二融合单元305和分类单元306，如下：

(1)获取单元301；

获取单元301，用于获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频。

可选的，在本申请的一些实施例中，所述获取单元301具体可以用于通过分类模型，对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图。

(2)识别单元302；

识别单元302，用于对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域。

可选的，在本申请的一些实施例中，所述识别单元302可以包括滑动子单元3021、第一识别子单元3022和第一确定子单元3023，参见图3b，如下：

所述滑动子单元3021，用于通过预设窗口在所述目标视频图像的全局特征图上滑动，获取所述目标视频图像的全局特征图的多个候选区域；

第一识别子单元3022，用于基于所述全局特征图中各个候选区域的特征图信息，对各个候选区域进行显著性识别；

第一确定子单元3023，用于基于识别结果，从所述候选区域中确定出至少一个显著性区域。

可选的，在本申请的一些实施例中，所述识别单元302还可以包括边框回归子单元3024、第二识别子单元3025和筛选子单元3026，参见图3c，如下：

所述边框回归子单元3024，用于将确定出的所述显著性区域作为候选显著性区域，对所述候选显著性区域进行边框回归，得到边框调整后的候选显著性区域；

第二识别子单元3025，用于基于所述全局特征图中边框调整后的候选显著性区域的特征图信息，对所述边框调整后的候选显著性区域进行显著性识别；

筛选子单元3026，用于基于识别结果对所述边框调整后的候选显著性区域进行筛选，得到所述目标视频图像的显著性区域。

可选的，在本申请的一些实施例中，所述识别单元302具体可以用于通过所述分类模型，对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域。

(3)提取单元303；

提取单元303，用于对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量。

可选的，在本申请的一些实施例中，所述提取单元303具体可以用于对所述目标视频图像的全局特征图中各个显著性区域进行池化处理，得到所述目标视频图像的各个显著性区域的区域特征向量。

(4)第一融合单元304；

第一融合单元304，用于基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量。

可选的，在本申请的一些实施例中，所述第一融合单元304可以包括第二确定子单元3041和加权子单元3042，参见图3d，如下：

所述第二确定子单元3041，用于基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，确定所述目标视频图像的各个显著性区域对应的权重；

加权子单元3042，用于基于所述权重，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行加权处理，得到所述目标视频图像的图像特征向量。

(5)第二融合单元305；

第二融合单元305，用于将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量。

可选的，在本申请的一些实施例中，所述第二融合单元305可以包括聚类子单元3051、第一计算子单元3052和第一融合子单元3053，参见图3e，如下：

所述聚类子单元3051，用于对各个目标视频图像的图像特征向量进行聚类处理，得到至少一个聚类集合，并确定各个聚类集合中作为聚类中心的中心特征向量；

第一计算子单元3052，用于针对每一个聚类集合，计算所述聚类集合中的非中心特征向量与中心特征向量的差值，得到所述聚类集合的特征残差向量；

第一融合子单元3053，用于将各个聚类集合的特征残差向量进行融合，得到所述目标视频的视频特征向量。

可选的，在本申请的一些实施例中，所述聚类子单元3051具体可以用于确定聚类集合的数量K，其中，K为不小于1的正整数；

(6)分类单元306；

分类单元306，用于基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

可选的，在本申请的一些实施例中，所述分类单元306具体可以用于通过所述分类模型，基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

可选的，在本申请的一些实施例中，所述视频分类装置还包括训练单元307，所述训练单元307用于对分类模型进行训练；所述训练单元307可以包括第一获取子单元3071、第一提取子单元3072、第二提取子单元3073、第二融合子单元3074、第三确定子单元3075、第二计算子单元3076和调整子单元3077，参见图3f，如下：

所述第一获取子单元3071，用于获取训练数据，所述训练数据包括样本视频的样本视频图像、以及所述样本视频对应的真实类别信息；

第一提取子单元3072，用于通过预设分类模型，对所述样本视频图像进行特征提取，得到所述样本视频图像对应的全局特征图，对所述样本视频图像的全局特征图进行显著性区域识别，确定所述样本视频图像的全局特征图的至少一个预测显著性区域；

第二提取子单元3073，用于对所述样本视频图像的全局特征图中各个预测显著性区域进行特征提取，得到所述样本视频图像的各个预测显著性区域的区域特征向量，并基于所述样本视频图像的各个预测显著性区域对所述样本视频的分类结果的重要性，对所述样本视频图像的全局特征图的特征图向量以及各个预测显著性区域的区域特征向量进行融合，得到所述样本视频图像的图像特征向量；

第二融合子单元3074，用于将各个样本视频图像的图像特征向量进行融合，得到所述样本视频的视频特征向量；

第三确定子单元3075，用于基于所述视频特征向量，确定所述样本视频在各个预设类别上的预测概率信息；

第二计算子单元3076，用于计算所述预测概率信息和所述样本视频的真实类别信息之间的第一损失值；

调整子单元3077，用于基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

可选的，在本申请的一些实施例中，所述训练单元307还可以包括第三计算子单元3078、第四确定子单元3079、第二获取子单元307A和第三获取子单元307B，其中，所述第三计算子单元3078用于调整子单元3077基于所述第一损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型之前，参见图3g，如下：

所述第三计算子单元3078，用于计算所述第一损失值对所述样本视频的视频特征向量的梯度，并基于所述梯度，绘制所述样本视频的样本视频图像的全局特征图对应的热力图；

第四确定子单元3079，用于基于所述样本视频的预测概率信息，确定所述样本视频的类别信息；

第二获取子单元307A，用于当所述样本视频的类别信息与所述真实类别信息一致时，基于所述热力图，获取所述样本视频图像的全局特征图的显著性区域，并将获取的所述显著性区域设置为所述样本视频图像的真实显著性区域；

第三获取子单元307B，用于当所述样本视频的类别信息与所述真实类别信息不一致时，基于所述热力图，获取所述样本视频图像的全局特征图的非显著性区域，并将获取的所述非显著性区域设置为所述样本视频图像的非真实显著性区域；

所述调整子单元3077具体可以用于基于所述真实显著性区域和所述非真实显著性区域，计算所述样本视频图像的预测显著性区域的第二损失值；基于所述第一损失值和所述第二损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

由上可知，本实施例由获取单元301获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；通过识别单元302对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；通过提取单元303对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；由第一融合单元304基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；通过第二融合单元305将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；由分类单元306基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例可以获取至少一个目标视频图像，并对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域；对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量；基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量；将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量；基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签。本申请通过融合各个显著性区域的区域特征向量，可以增强视频特征向量的表征力，有利于提高视频分类的准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频分类方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频分类方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种视频分类方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分类方法，其特征在于，包括：

获取至少一个目标视频图像，并通过分类模型对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；

基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签；

所述通过分类模型对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图之前，还包括：

将所述分类损失和所述回归损失进行融合，得到所述样本视频图像的预测显著性区域的第二损失值；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频图像的全局特征图进行显著性区域识别，确定所述目标视频图像的全局特征图的至少一个显著性区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于识别结果，从所述候选区域中确定出至少一个显著性区域之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标视频图像的全局特征图中各个显著性区域进行特征提取，得到所述目标视频图像的各个显著性区域的区域特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标视频图像的各个显著性区域对所述目标视频的分类结果的重要性，对所述目标视频图像的全局特征图的特征图向量以及各个显著性区域的区域特征向量进行融合，得到所述目标视频图像的图像特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述将各个目标视频图像的图像特征向量进行融合，得到所述目标视频的视频特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述对各个目标视频图像的图像特征向量进行聚类处理，得到至少一个聚类集合，并确定各个聚类集合中作为聚类中心的中心特征向量，包括：

确定聚类集合的数量K，其中，K为不小于1的正整数；

8.一种视频分类装置，其特征在于，包括：

获取单元，用于获取至少一个目标视频图像，并通过分类模型对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图，其中，所述目标视频图像来源于目标视频；

分类单元，用于基于所述视频特征向量对所述目标视频进行分类，得到所述目标视频的至少一个类别标签；

训练单元，用于在所述获取单元通过分类模型对所述目标视频图像进行特征提取，得到所述目标视频图像对应的全局特征图之前；获取训练数据，所述训练数据包括样本视频的样本视频图像、以及所述样本视频对应的真实类别信息；通过预设分类模型，对所述样本视频图像进行特征提取，得到所述样本视频图像对应的全局特征图，对所述样本视频图像的全局特征图进行显著性区域识别，确定所述样本视频图像的全局特征图的至少一个预测显著性区域；对所述样本视频图像的全局特征图中各个预测显著性区域进行特征提取，得到所述样本视频图像的各个预测显著性区域的区域特征向量，并基于所述样本视频图像的各个预测显著性区域对所述样本视频的分类结果的重要性，对所述样本视频图像的全局特征图的特征图向量以及各个预测显著性区域的区域特征向量进行融合，得到所述样本视频图像的图像特征向量；将各个样本视频图像的图像特征向量进行融合，得到所述样本视频的视频特征向量；基于所述视频特征向量，确定所述样本视频在各个预设类别上的预测概率信息；计算所述预测概率信息和所述样本视频的真实类别信息之间的第一损失值；计算所述第一损失值对所述样本视频的视频特征向量的梯度，并基于所述梯度，绘制所述样本视频的样本视频图像的全局特征图对应的热力图；基于所述样本视频的预测概率信息，确定所述样本视频的类别信息；当所述样本视频的类别信息与所述真实类别信息一致时，基于所述热力图，获取所述样本视频图像的全局特征图的显著性区域，并将获取的所述显著性区域设置为所述样本视频图像的真实显著性区域；当所述样本视频的类别信息与所述真实类别信息不一致时，基于所述热力图，获取所述样本视频图像的全局特征图的非显著性区域，并将获取的所述非显著性区域设置为所述样本视频图像的非真实显著性区域；基于所述样本视频图像的预测显著性区域和所述真实显著性区域的区域重叠程度，确定所述预测显著性区域的真实显著性区域概率；基于所述样本视频图像的预测显著性区域和所述非真实显著性区域的区域重叠程度，确定所述预测显著性区域的真实显著性区域概率；通过预设分类模型，基于所述预测显著性区域的特征图信息，确定所述预测显著性区域为真实的显著性区域的预测概率；基于所述预测显著性区域的预测概率和对应的真实显著性区域概率，计算所述预测显著性区域的分类损失；基于所述真实显著性区域概率不低于预设概率阈值的预测显著性区域，在所述样本视频图像的全局特征图中的位置信息，以及所述真实显著性区域在所述样本视频图像的全局特征图中的位置信息，计算所述预测显著性区域的回归损失；将所述分类损失和所述回归损失进行融合，得到所述样本视频图像的预测显著性区域的第二损失值；基于所述第一损失值和所述第二损失值，对预设分类模型的参数进行调整，得到满足预设条件的分类模型。

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的视频分类方法中的操作。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的视频分类方法中的步骤。