CN111652073B

CN111652073B - 视频分类方法、装置、系统、服务器和存储介质

Info

Publication number: CN111652073B
Application number: CN202010384686.4A
Authority: CN
Inventors: 陈观钦; 陈远; 王摘星; 陈斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2023-02-28
Anticipated expiration: 2040-05-08
Also published as: CN111652073A

Abstract

本发明实施例公开了一种视频分类方法、装置、系统、服务器和存储介质；本发明实施例获取目标视频的图像内容特征序列，图像内容特征包括多个内容类型的子内容特征；基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；对多个尺度的视频复合特征进行标定融合处理，得到融合特征；根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。本发明实施例可以通过对图像内容特征进行多维嵌入、多尺度卷积等处理来获取丰富、完整的视频特征，从而提高预测的准确度。由此，本方案可以提升视频分类的准确度。

Description

视频分类方法、装置、系统、服务器和存储介质

技术领域

本发明涉及计算机领域，具体涉及一种视频分类方法、装置、系统、服务器和存储介质。

背景技术

视频(Video)泛指将一系列以连续的静态图像形式所保存的动态图像数据，目前随着存储技术以及视频编码技术的发展，视频的时间长度越来越长，而视频画面中关键内容的画面却占比越来越少，例如，一局多人对战游戏的游戏视频可长达30～60分钟，而战斗画面却可能只占其中的1/4。

对于视频分类任务，视频的类型往往由其关键内容决定，然而，由于视频时长的延长以及关键内容的占比缩短，目前根据视频所有内容进行视频分类的方法往往会被无关内容影响，而仅根据视频关键内容进行视频分类的方法往往又会遗漏关键内容，因此，目前的视频分类方法的准确度较低。

发明内容

本发明实施例提供一种视频分类方法、装置、系统、服务器和存储介质，可以提升视频分类方法的准确度。

本发明实施例提供一种视频分类方法，包括：

获取目标视频的图像内容特征序列，所述目标视频由多帧图像构成，所述图像内容特征序列包括所述图像对应的图像内容特征，所述图像内容特征包括多个内容类型的子内容特征；

基于所述图像内容特征序列和所述子内容特征进行多维度嵌入处理，得到所述目标视频的多维视频内容特征；

基于所述多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；

对所述多个尺度的视频复合特征进行标定融合处理，得到融合特征；

根据所述融合特征预测所述目标视频所属的视频类型，以便对所述目标视频进行分类。

本发明实施例还提供一种视频分类装置，包括：

获取单元，用于获取目标视频的图像内容特征序列，所述目标视频由多帧图像构成，所述图像内容特征序列包括所述图像对应的图像内容特征，所述图像内容特征包括多个内容类型的子内容特征；

多维单元，用于基于所述图像内容特征序列和所述子内容特征进行多维度嵌入处理，得到所述目标视频的多维视频内容特征；

多尺度单元，用于基于所述多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；

融合单元，用于对所述多个尺度的视频复合特征进行标定融合处理，得到融合特征；

预测单元，用于根据所述融合特征预测所述目标视频所属的视频类型，以便对所述目标视频进行分类。

在一些实施例中，所述视频复合特征包括视频浅层特征、视频深层特征，所述多尺度单元，包括：

浅层子单元，用于采用多个不同尺度的卷积核对所述多维视频内容特征进行卷积计算，得到多个不同尺度的视频浅层特征；

深层子单元，用于采用门控卷积网络对所述视频浅层特征进行特征筛选处理，得到视频深层特征。

在一些实施例中，所述门控卷积网络包括第一门控卷积层和第二门控卷积层，所述视频深层特征包括第一视频深层特征和第二视频深层特征；

所述深层子单元，包括：

第一深层子模块，用于采用第一门控卷积层对所述视频浅层特征进行初步筛选处理，得到第一视频深层特征；

中间子模块，用于基于所述视频浅层特征和所述第一视频深层特征进行残差融合处理，得到中间特征；

第二深层子模块，用于采用第二门控卷积层对所述中间特征进行再次筛选处理，得到第二视频深层特征。

在一些实施例中，所述第一门控卷积层包括第一逻辑回归卷积核和第一卷积核，所述第一深层子模块，用于：

采用所述第一逻辑回归卷积核对所述视频浅层特征进行卷积计算，得到所述第一逻辑回归卷积核对应的第一待逻辑回归特征；

对所述第一待逻辑回归特征进行逻辑回归处理，得到第一逻辑回归特征；

采用所述第一卷积核对所述视频浅层特征进行卷积计算，得到所述第一卷积核对应的第一待筛选特征；

根据所述第一待筛选特征和所述第一逻辑回归特征确定所述第一视频深层特征。

在一些实施例中，所述第二门控卷积层包括第二逻辑回归卷积核和第二卷积核，所述第二深层子模块，用于：

采用所述第二逻辑回归卷积核对所述中间特征进行卷积计算，得到所述中间特征对应的第二待逻辑回归特征；

对所述第二待逻辑回归特征进行逻辑回归处理，得到第二逻辑回归特征；

采用所述第二卷积核对所述中间特征进行卷积计算，得到所述第二卷积核对应的第二待筛选特征；

根据所述第二待筛选特征和所述第二逻辑回归特征确定待池化特征；

根据所述待池化特征和所述第一视频深层特征进行池化处理，得到第二视频深层特征。

在一些实施例中，所述多维单元，包括：

第一维度子单元，用于对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征；

第二维度子单元，用于对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征；

多维子单元，用于根据所述第一维度的视频内容特征和所述第二维度的视频内容特征确定所述目标视频的多维视频内容特征。

在一些实施例中，所述第一维度子单元，用于：

对所述不同内容类型的子内容特征所对应的内容类型进行特征嵌入，得到所述子内容特征所对应的嵌入特征；

将不同内容类型的子内容特征所对应的嵌入特征进行特征融合处理，得到第一维度的视频内容特征。

在一些实施例中，第二维度子单元，用于：

对子内容特征所对应的内容类型进行独热编码，得到所述子内容特征所对应的独热特征；

将相同内容类型的子内容特征所对应的独热特征进行特征拼接，得到拼接特征；

对所述拼接特征进行全连接映射处理，得到第二维度的视频内容特征。

在一些实施例中，所述融合单元，包括：

标定子单元，用于基于所述多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征；

筛选融合子单元，用于采用高速网络对所述多个尺度的标定特征进行筛选融合处理，得到融合特征。

在一些实施例中，所述标定子单元，用于：

基于所述视频复合特征进行全局统计处理，得到所述视频复合特征对应的全局特征；

计算所述全局特征的影响力；

根据所述影响力对所述视频复合特征进行标定处理，得到所述视频复合特征对应的标定特征。

在一些实施例中，所述获取单元，用于：

获取目标视频；

对所述目标视频进行分帧处理，得到多帧图像；

对所述图像进行关键帧识别，确定所述目标视频的关键帧图像；

对所述图像和所述关键帧图像进行图像内容检测，确定所述图像和所述关键帧图像中所出现的图像内容；

对所述图像内容进行内容识别，得到所述图像对应的图像内容特征。

本发明实施例还提供一种视频分类系统，包括主控模块、获取模块、预测模块，其中：

所述主控模块与所述获取模块、预测模块通信，用于向所述获取模块发送目标视频并从所述获取模块接收图像内容特征序列，以及向所述预测模块发送所述图像内容特征序列并从所述预测模块接收目标视频的视频类型；

所述获取模块用于从主控模块获取目标视频，并对所述目标视频进行处理，得到所述目标视频的图像内容特征序列，所述目标视频由多帧图像构成，所述图像内容特征序列包括所述图像对应的图像内容特征，所述图像内容特征包括多个内容类型的子内容特征；

所述预测模块用于基于所述图像内容特征序列和所述子内容特征进行多维度嵌入处理，得到所述目标视频的多维视频内容特征，以及基于所述多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征，以及对所述多个尺度的视频复合特征进行标定融合处理，得到融合特征，并根据所述融合特征预测所述目标视频所属的视频类型，最后将目标视频的视频类型发送给主控模块。

本发明实施例还提供一种服务器，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一种视频分类方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种视频分类方法中的步骤。

本发明实施例可以获取目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征；基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；对多个尺度的视频复合特征进行标定融合处理，得到融合特征；根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。

在本发明中，通过对目标视频的图像内容特征序列进行一系列的多维度嵌入、多尺度卷积，以及融合，可以最大限度地将目标视频中画面的内容信息以及连续画面之间的时序信息提取出来，从而获得丰富、详尽、可靠的融合特征，使得根据该融合特征预测的视频类型更加准确。由此，提升了视频分类方法的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频分类方法的场景示意图；

图1b是本发明实施例提供的视频分类方法的流程示意图；

图1c是本发明实施例提供的视频分类方法的分帧提取示意图；

图1d是本发明实施例提供的视频分类方法的门控卷积网络的结构示意图；

图1e是本发明实施例提供的视频分类方法的标定融合层的结构示意图；

图2a是本发明实施例提供的视频分类方法的另一种流程示意图；

图2b是本发明实施例提供的视频分类方法的视频分类模型的结构示意图；

图3是本发明实施例提供的视频分类装置的结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频分类方法、装置、系统、服务器和存储介质。

其中，该视频分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该视频分类装置还可以集成在多个电子设备中，比如，视频分类装置可以集成在多个服务器中，由多个服务器来实现本发明的视频分类方法。

在一些实施例中，服务器也可以以终端的形式来实现。

该视频分类装置可以集成在多个服务器中，由多个服务器构成视频分类系统，其中，该视频分类系统可以包括主控模块、获取模块、预测模块，主控模块可以由主控服务器构成，获取模块可以由获取服务器构成，预测模块可以由预测服务器构成。

在一些实施例中，获取服务器可以是由多个服务器组成的服务器集群，预测服务器可以是由多个服务器组成的服务器集群，也可以是单一服务器。

在一些实施例中，主控服务器可以与获取服务器、预测服务器构成主从(Master/Slave)模式进行通信，主控服务器作为主控(Master)设备，获取服务器、预测服务器作为主控服务器的从属(Slave)设备。

其中，主控服务器可以向获取服务器发送目标视频并从获取服务器接收图像内容特征序列，以及向预测服务器发送图像内容特征序列并从预测服务器接收目标视频的视频类型；

其中，获取服务器可以从主控服务器获取目标视频，并对目标视频进行处理，得到目标视频的图像内容特征序列，目标视频可以由多帧图像构成，图像内容特征序列可以包括图像对应的图像内容特征，图像内容特征可以包括多个内容类型的子内容特征；

其中，预测服务器可以基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征，以及基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征，以及对多个尺度的视频复合特征进行标定融合处理，得到融合特征，并根据融合特征预测目标视频所属的视频类型，最后将目标视频的视频类型发送给主控服务器。

例如，参考图1a，主控服务器可以通过网络与其从属的获取服务器1、获取服务器2、获取服务器3、预测服务器进行通信，假设目标视频1和目标视频3是普通视频类型，目标视频2是特殊视频类型：

主控服务器可以向获取服务器1发送目标视频1并从获取服务器1接收图像内容特征序列1，向获取服务器2发送目标视频2并从获取服务器2接收图像内容特征序列2，向获取服务器3发送目标视频3并从获取服务器3接收图像内容特征序列3。

以及主控服务器可以向预测服务器发送图像内容特征序列1、图像内容特征序列2、图像内容特征序列3，并从预测服务器接收目标视频1的视频类型1、目标视频2的视频类型2、目标视频3的视频类型3。

主控服务器可以根据目标视频1的视频类型1、目标视频2的视频类型2、目标视频3的视频类型3确定目标视频2的视频类型2是特殊视频类型，故主控服务器可以将目标视频2发送给人工客户端，以便人工客服可以在该人工客户端上对目标视频2进行进一步的视频分类或视频类型确认。

其中，获取服务器可以用于从主控服务器获取目标视频，并对目标视频进行处理，得到目标视频的图像内容特征序列，目标视频可以由多帧图像构成，图像内容特征序列可以包括图像对应的图像内容特征，图像内容特征可以包括多个内容类型的子内容特征；

其中，预测服务器可以用于基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征，以及基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征，以及对多个尺度的视频复合特征进行标定融合处理，得到融合特征，并根据融合特征预测目标视频所属的视频类型，最后将目标视频的视频类型发送给主控服务器。

为了提高预测效率、对更多的视频进行分类，在一些实施例中，服务器、获取服务器以及预测服务器之间的处理流程可以异步进行，从而节省处理时间，提高视频的分类效率。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

其中，计算机视觉(Computer Vision，CV)是利用计算机代替人眼对目标图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建等技术，比如，图像着色、图像描边提取等图像处理技术。

在本实施例中，提供了一种基于计算机视觉的视频分类方法，如图1b所示，该视频分类方法的具体流程可以如下：

101、获取目标视频的图像内容特征序列，该目标视频由多帧图像构成，该图像内容特征序列包括图像对应的图像内容特征，该图像内容特征包括多个内容类型的子内容特征。

其中，目标视频是一种按照时间顺序排序的多帧连续图像所构成的图像序列，对于图像序列中的每一帧图像，都有其对应的图像内容特征，这些图像内容特征构成图像内容特征序列。

其中，图像内容特征是包含了该图像记录的人物、场景、物体、标识等信息的特征，比如，对于游戏解说视频中某一帧的游戏画面来说，该游戏画面的图像内容特征是包含了该游戏画面中用户操作界面(User Interface，UI)的游戏角色信息、击杀标识信息、武器标识信息，以及游戏画面中敌人图像信息、友军图像信息、游戏角色血条信息，等等。

图像内容特征中可以由多个不同内容的子内容特征构成，比如，按照上述例子，图像内容特征是包含了该游戏画面中UI的游戏角色信息、击杀标识信息、武器标识信息，以及游戏画面中敌人图像信息、友军图像信息、游戏角色血条信息，等等，UI的游戏角色信息可以作为一种子内容特征，击杀标识信息可以作为另一种子内容特征，武器标识信息可以作为另一种子内容特征，敌人图像信息可以作为另一种子内容特征，游戏角色血条信息可以作为另一种子内容特征，友军图像信息可以作为另一种子内容特征，等等。

获取目标视频的图像内容特征序列的方法具有多种，比如，通过网络从数据库中获取目标视频的图像内容特征序列，再比如，从本地内从中获取目标视频的图像内容特征序列，再比如，由技术人员构造并输入目标视频的图像内容特征序列，等等。

在一些实施例中，可以获取目标视频，并对目标视频进行一系列处理从而得到目标视频的图像内容特征序列，例如，步骤101可以包括如下步骤：

获取目标视频；

对目标视频进行分帧处理，得到多帧图像；

对图像进行关键帧识别，确定目标视频的关键帧图像；

对图像和关键帧图像进行图像内容检测，确定图像和关键帧图像中所出现的图像内容；

对图像内容进行内容识别，得到图像对应的图像内容特征。

其中，关键帧是指目标视频中出现关键内容时的图像，比如，在游戏视频中，关键帧可以指包含了击杀场景的图像，例如，在第一人称射击类游戏视频中，关键帧可以是画面中出现“爆头”标识的图像。

其中，图像内容可以是指视频画面中出现的标识、景物、人物等内容，通过识别这些内容，可以得到图像对应的图像内容特征。

其中，识别方式具有多种，比如，采用图像处理算子(operator)对图像中的图像内容特征进行特征提取；再比如，采用卷积神经网络(Convolutional Neural Networks,CNN)、全卷积神经网络(Fully Convolutional Networks,FCN)等对图像中的图像内容特征进行特征提取，等等。

例如，在一些实施例中，可以先采用CNN图像分类网络来识对图像进行关键帧识别，确定目标视频的关键帧图像，采用FCN图像分割网络对图像和关键帧图像进行图像内容检测，确定图像和关键帧图像中所出现的图像内容，以及采用全连接层(Fully connectedlayer)对图像内容进行内容识别，得到图像对应的图像内容特征。

其中，CNN图像分类网络为二维CNN，FCN图像分割网络可以为YOLO V3(一种图像检测网络)，等等。

例如，参考图1c，目标视频可以按照每0.1秒一帧进行分帧处理，得到n帧图像，并采用图像分割网络对这些图像中出现的关键内容和目标区域进行剪裁，得到关键帧区域和目标区域，然后，对关键帧区域进行关键帧识别，判断其是否是关键帧图像，以及，对目标区域进行图像内容检测，判断其是否是特定的图像内容，以及，根据这些关键帧图像和图像内容识别该图像的内容特征。

例如，对于游戏视频，可以对视频按照每0.1秒一帧进行分帧处理，得到多帧RGB图片帧数据。

然后使用CNN图片分类模型判断每一帧图像是否是关键击杀帧，即判断该图像中的玩家是否狙杀了敌人。

同时，使用CNN图像分类模型识别图像中的场景、人物、物体、标识等，例如，玩家血条的血量数字、子弹数量、武器类型，等等。

然后，根据关键击杀帧、玩家血条的血量数字、子弹数量、武器类型等对图像内容进行内容识别，得到图像对应的图像内容特征。

102、基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征。

其中，多维度嵌入处理是同时利用多种不同特征嵌入手段进行特征嵌入的方式。

由于不同的特征嵌入手段可以达到不同的嵌入效果，而本发明实施例可以通过多维度嵌入处理来保证得到目标视频的多维视频内容特征更加丰富，完整，以及在时序性和通用性上更加优秀。

为了提高多维视频内容特征的丰富度、完整性、时序性以及通用性，同时保证计算量较小、耗时较快，在一些实施例中，可以采用两种特征嵌入手段进行特征嵌入，故步骤102可以包括如下步骤：

A.对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征；

B.对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征；

C.根据第一维度的视频内容特征和第二维度的视频内容特征确定目标视频的多维视频内容特征。

通过对不同内容类型的子内容特征进行先嵌入后融合处理可以有效地保留单个子内容特征的的特征信息，而对所有内容类型的子内容特征进行先融合后嵌入处理可以保留子内容特征之间的时序信息。

其中，在一些实施例中，步骤“A.对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征”可以包括如下步骤：

A₁.对不同内容类型的子内容特征所对应的内容类型进行特征嵌入，得到子内容特征所对应的嵌入特征；

A₂.将不同内容类型的子内容特征所对应的嵌入特征进行特征融合处理，得到第一维度的视频内容特征。

其中，可以采用任意的嵌入手段进行特征嵌入，例如，赫夫曼编码(HuffmanCoding)、n-gram模型，等等。

其中，可以采用任意的特征融合手段进行特征融合，比如，特征拼接、特征相乘、特征相加，等等。

在一些实施例中，步骤“B.对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征”可以包括如下步骤：

b₁.对子内容特征所对应的内容类型进行独热编码，得到子内容特征所对应的独热特征；

b₂.将相同内容类型的子内容特征所对应的独热特征进行特征拼接，得到拼接特征；

b₃.对拼接特征进行全连接映射处理，得到第二维度的视频内容特征。

103、基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征。

其中，多尺度卷积处理方式可以采用多个不同尺度的卷积核、卷积核阵列等进行卷积处理。

其中，多个尺度的视频复合特征可以指多个不同感受野(Receptive Field)、层次等尺度的视频复合特征。

比如，在一些实施例中，视频复合特征可以包括视频浅层特征、视频深层特征，步骤103可以包括如下步骤：

A.采用多个不同尺度的卷积核对多维视频内容特征进行卷积计算，得到多个不同尺度的视频浅层特征；

B.采用门控卷积网络对视频浅层特征进行特征筛选处理，得到视频深层特征。

其中，多个不同尺度的卷积核可以是一维的滑动卷积，该一维的滑动卷积可以具有不同的窗口宽度，当多维视频内容特征以矩阵形式表现时，该一维的滑动卷积可以在该多维视频内容特征上滑动进行卷积计算，得到多个不同尺度的视频浅层特征。

其中，门控卷积网络是包含了门控单元的卷积网络，比如，该门控卷积网络可以是长短期记忆网络(LSTM，Long Short-Term Memory)、GRU(Gated Recurrent Unit，门控循环单元网络)等等，该门控卷积网络也可以是由技术人员设计的包含了门控单元的卷积神经网络。

采用门控卷积网络对视频浅层特征进行特征筛选处理，可以有效地解决视频浅层特征的数据长度较长、冗余特征较多的问题，从而获得更加简练、精准的视频深层特征，进而提高了预测准确度。

比如，参考图1d，可以采用多个结构相同、卷积尺寸不同的门控卷积网络来对不同尺度的视频浅层特征进行特征筛选处理，得到视频深层特征。

例如，图1d中包括N个结构相同、卷积尺寸不同的门控卷积网络，每个门控卷积网络中都包括括第一门控卷积层和第二门控卷积层，比如，图1d的门控卷积网络N中包括了下半部分深色区的第一门控卷积层n1，和上半部分深色区的第二门控卷积层n2。

其中，Conv1、Conv2、…ConvN可以代表N种不同宽度的一维卷积核。

通过第一门控卷积层进行特征的筛选处理，可以有效地突出重要的视频浅层特征，同时减弱冗余的、不必要的视频浅层特征的影响。

通过第二门控卷积层进行特征的筛选处理，可以使得特征更加抽象、准确。

例如，在一些实施例中，门控卷积网络可以包括第一门控卷积层和第二门控卷积层，视频深层特征可以包括第一视频深层特征和第二视频深层特征，步骤“B.采用门控卷积网络对视频浅层特征进行特征筛选处理，得到视频深层特征”可以包括如下步骤：

b₁.采用第一门控卷积层对视频浅层特征进行初步筛选处理，得到第一视频深层特征；

b₂.基于视频浅层特征和第一视频深层特征进行残差融合处理，得到中间特征；

b₃.采用第二门控卷积层对中间特征进行再次筛选处理，得到第二视频深层特征。

在一些实施例中，第一门控卷积层可以包括第一逻辑回归卷积核和第一卷积核，例如，参考图1d的门控卷积网络N部分，门控卷积网络N的第一门控卷积层N中包括两个不同尺度的卷积核：ConvN_11和ConvN_12。

例如，在一些实施例中，第一门控卷积层可以包括第一逻辑回归卷积核和第一卷积核，步骤“b₁.采用第一门控卷积层对视频浅层特征进行初步筛选处理，得到第一视频深层特征”可以包括如下步骤：

采用第一逻辑回归卷积核对视频浅层特征进行卷积计算，得到第一逻辑回归卷积核对应的第一待逻辑回归特征；

对第一待逻辑回归特征进行逻辑回归处理，得到第一逻辑回归特征；

采用第一卷积核对视频浅层特征进行卷积计算，得到第一卷积核对应的第一待筛选特征；

根据第一待筛选特征和第一逻辑回归特征确定第一视频深层特征。

在一些实施例中，第二门控卷积层可以包括第二逻辑回归卷积核和第二卷积核，例如，参考图1d的门控卷积网络N部分，门控卷积网络N的第二门控卷积层N中包括两个不同尺度的卷积核：ConvN_21和ConvN_22。

例如，在一些实施例中，第二门控卷积层可以包括第二逻辑回归卷积核和第二卷积核，步骤“b₃.采用第二门控卷积层对中间特征进行再次筛选处理，得到第二视频深层特征”可以包括如下步骤：

采用第二逻辑回归卷积核对中间特征进行卷积计算，得到中间特征对应的第二待逻辑回归特征；

对第二待逻辑回归特征进行逻辑回归处理，得到第二逻辑回归特征；

采用第二卷积核对中间特征进行卷积计算，得到第二卷积核对应的第二待筛选特征；

根据第二待筛选特征和第二逻辑回归特征确定待池化特征；

根据待池化特征和第一视频深层特征进行池化处理，得到第二视频深层特征。

104、对多个尺度的视频复合特征进行标定融合处理，得到融合特征。

为了强化某些尺度的重要的视频复合特征的影响，减弱某些尺度的冗余的的视频复合特征的影响，以及解决神经网络深度过深导致的预测不准确、训练时长过长的问题，在一些实施例中，步骤104可以包括如下步骤：

A.基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征；

B.采用高速网络对多个尺度的标定特征进行筛选融合处理，得到融合特征。

需要注意的是，在一些实施例中，还可以除了采用高速网络(Highway net)对多个尺度的标定特征进行筛选融合处理，得到融合特征，还可以采用残差网络(ResidualNetwork)对多个尺度的标定特征进行筛选融合处理，得到融合特征，等等。

其中，在一些实施例中，步骤“A.基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征”可以包括如下步骤：

基于视频复合特征进行全局统计处理，得到视频复合特征对应的全局特征；

计算全局特征的影响力；

根据影响力对视频复合特征进行标定处理，得到视频复合特征对应的标定特征。

比如，通过平均池化层和/或全连接层来基于视频复合特征进行全局统计处理，得到视频复合特征对应的全局特征，通过逻辑回归函数如Sigmoid函数、Softmax函数等计算全局特征的影响力。

例如，在一些实施例中，为了避免输入信息的过多损失，不利于模型训练，可以采用残差连接的形式来执行步骤“A.基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征”，比如，可以采用SENet(Squeeze and Excitation Networks)来执行步骤“A.基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征”。

此外，参考图1e，为了突出重要的特征向量，弱化无用特征向量，以及避免输入信息的过多损失，不利于模型训练，在一些实施例中，可以采用图1e所示的标定网络来执行步骤“A.基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征”，其具体步骤如下：

分别对视频复合特征进行全局平均池化处理，得到平均特征；

采用全连接网络对平均特征进行特征转换，得到转换特征；

采用非线性层对转换特征进行全局融合，得到特征权重；

根据特征权重和视频复合特征进行特征融合，得到待标定特征；

根据待标定特征和视频复合特征进行残差相加处理，得到标定特征。

采用共享参数的平均池化层基于视频复合特征进行全局统计处理，得到视频复合特征对应的全局特征。

105、根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。

在一些实施例中，可以通过全连接层对融合特征做非线性和维度转换，并最后通过全连接分类层预测目标视频所属的视频类型。

其中，目标视频所属的视频类型可以由技术人员设定，比如，游戏视频所属的视频类型可以包括游戏作弊类型、正常游戏类型、未知类型，等等。

由上可知，本发明实施例可以获取目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征；基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；对多个尺度的视频复合特征进行标定融合处理，得到融合特征；根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。

由此本方案可以，从而提升视频分类方法的准确度。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以用于游戏作弊检测的游戏视频分类场景为例，对本发明实施例的方法进行详细说明。

如图2a所示，一种视频分类方法具体流程如下：

一、主控服务器向获取服务器发送目标视频。

主控服务器可以从游戏视频数据库中获取目标视频，并通过网络向服务器发送目标视频。

该目标视频为游戏视频，该游戏视频中可以包括游戏画面、游戏UI，等等。

其中，游戏UI中可以包括玩家所操控游戏角色的技能UI、角色状态UI、聊天界面UI，等等；游戏画面中可以显示敌方角色、“爆头”击杀标志，等等。

其中，角色状态UI可以展示角色血量、子弹数量、投掷物类型，等等。

游戏作弊的方式具有多种，比如，通过脚本、外挂、修改器等工具实现游戏作弊，破坏游戏公平性。比如，游戏作弊的方式可以是透视敌人角色、视角锁定敌人角色、加快角色移动速度、穿透障碍物、锁定角色血量、增加攻击力，等等。

需要注意的是，使用不同的游戏作弊的方式，游戏画面、游戏UI可以有不同的画面表现。

例如，当玩家使用具有视角锁定敌人角色的外挂时，该玩家的游戏画面的视角中心会紧密地跟随敌人角色移动；例如当玩家使用具有锁定角色血量的外挂时，该玩家游戏画面中角色状态UI的角色血量数值不会变化，等等。

故可以根据游戏视频来判断该游戏视频中的玩家是否进行了游戏作弊。

二、获取服务器从主控服务器接收到目标视频后，根据目标视频获取图像内容特征序列，并将图像内容特征序列发送给主控服务器。

获取服务器可以采用OpenCV(一种跨平台计算机视觉库)的视频操作函数来对游戏视频分帧处理，得到多帧图像。

然后使用CNN图片分类模型判断每一帧图像是否是击杀帧图像，该击杀帧图像是表现玩家狙杀敌方角色的图像，比如，当玩家狙杀敌方角色时，游戏画面可以显示杀敌标识，采用CNN图片分类模型可以判断图像中是否含有杀敌标识，若有杀敌标识，则该图像为击杀帧图像。

同时，使用CNN图像分类模型和/或基于目标检测的yolo v3模型来识别击杀帧图像中特定的图像内容，比如角色状态、子弹数量等等。

最后对图像内容进行内容识别，得到图像对应的图像内容特征。

该图像内容特征可以是序列长度为T的M维向量。

三、主控服务器从获取服务器接收到目标视频的图像内容特征序列后，将目标视频的图像内容特征序列发送给预测服务器。

四、预测服务器从主控服务器接收到目标视频的图像内容特征序列后，根据图像内容特征序列预测目标视频所属的视频类型，并将目标视频所属的视频类型发送给主控服务器。

其中，预测服务器可以采用分类模型来根据图像内容特征序列预测目标视频所属的视频类型，参考图2b，分类模型可以包括多维度嵌入层、多尺度门控卷积层、特征重标定层、高速层和预测层，故步骤如下：

(1)在多维度嵌入层基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；

(2)在多尺度门控卷积层基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；

(3)在特征重标定层对多个尺度的视频复合特征进行标定融合处理，得到融合特征；

(4)在高速层和预测层根据融合特征预测目标视频所属的视频类型。

其中，步骤“(1)在多维度嵌入层基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征”可以采用两种不同的特征嵌入形式，把图像内容特征序列和子内容特征转换成不同通道的稠密特征向量序列，从而使得多维视频内容特征可以从多种角度描述更加丰富和全面的特征信息。

其中，第一种嵌入方式是先对内容特征序列中不同内容类型的子内容特征进行IDEmbedding，得到嵌入特征，再对这些嵌入特征进行Element wise相加，得到第一维度的视频内容特征。

其中，第二种嵌入方式是先对内容特征序列中不同内容类型的子内容特征进行独热编码，得到子内容特征所对应的独热特征，然后再将这些独热特征拼接在一起，得到拼接特征，最后经过一层全连接层将拼接特征映射为稠密的第二维度的视频内容特征。

最后，将第一维度的视频内容特征和第二维度的视频内容特征合并成多维视频内容特征。

本申请人发现，相比于只采用一种嵌入方式，在多维度嵌入层基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到的多维视频内容特征更加丰富。

其中，多尺度门控卷积层中可以包括多个门控卷积网络，每个门控卷积网络都包括一个一维卷积核、一个第一门控卷积层和一个第二门控卷积层，参考图2b，每个多尺度门控卷积层中的一维卷积的尺度均不相同，且第一门控卷积层和第二门控卷积层中的卷积尺度也不相同。

参考图2b，在本实施例中，第一门控卷积层1中包括第一逻辑回归卷积核Conv1_11和第一卷积核Conv1_12，第二门控卷积层1中包括第二逻辑回归卷积核Conv1_21和第二卷积核Conv1_22。

故步骤“(2)在多尺度门控卷积层基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征”的具体步骤如下：

首先，通过多尺度门控卷积层中的一维卷积核对多维视频内容特征进行浅层特征的提取。其中，不同的门控卷积网络具有的具有不同窗口宽度的一维卷积核。

例如，图2b中的Conv1到ConvN代表N种不同宽度的一维卷积核，采用这些一维卷积核可以分别从多维视频内容特征中提取出不同序列长度的n-gram特征，即浅层特征。

然后，通过第一门控卷积层可以对浅层特征做进一步的特征抽取和过滤，得到第一视频深层特征。

该第一门控卷积层中可以包括第一逻辑回归卷积核和第一卷积核，具体地，该第一门控卷积层可以对浅层特征进行两次不同参数的同种宽度一维卷积操作，例如图2b中的第一逻辑回归卷积核conv1_11和第一卷积核conv1_12，对conv1_11卷积后得到的第一待逻辑回归特征取Sigmoid函数，得到第一逻辑回归特征，并和conv1_12卷积后得到的第一待筛选特征进行元素相乘，得到第一视频深层特征。

第一视频深层特征Output的生成公式如下：

Conv1_11(X)＝W₁*X+B₁

Conv1_12(X)＝W₂*X+B₂

Output＝Sigmoid(Conv1_11(X))⊙Conv1_12(X)＝W₂*X+B₂

其中，Conv1_21(X)为第一逻辑回归卷积核conv1_11对多维视频内容特征X卷积后得到的第一待逻辑回归特征，Conv1_12(X)为第一卷积核conv1_12对多维视频内容特征X卷积后得到的第一待筛选特征，*表示一维卷积运算，⊙表示对应元素相乘。

特别针对游戏视频，由于游戏视频的视频时长度较长，且视频中大部分的图像帧是无用冗余的，且图像帧的分布与数量不确定，故该多尺度门控卷积层能够对每一个多维视频内容特征进行门控过滤，从而加强对重要的特征，弱化其他无关的特征，能够更提取出重要、准确且丰富的特征。

然后，基于视频浅层特征和第一视频深层特征可以进行残差相加处理，得到中间特征。

类似地，采用第二门控卷积层可以对中间特征进行再次的特征抽取和过滤，得到第二视频深层特征。

该多尺度门控卷积层中的多层门控卷积层能够扩大序列长度的感受野，以及层次化地提取抽象的深层特征，其中的残差连接更便于优化网络参数和避免原始输入信息的过度损失，同时可以抓住不同层次的抽象特征。

其中，参考图2b，特征重标定层能够根据整体全局信息对各通道的视频复合特征进行做重标定，强化重要宽度卷积核的信息，降低冗余等特征图的权重；同时，特征重标定层中的残差连接，可以避免原始输入信息的过多损失，不利于后续结构的学习，此外，残差结构也有利于更好地训练优化网络的参数。

故步骤“(3)在特征重标定层对多个尺度的视频复合特征进行标定融合处理，得到融合特征”具体步骤如下：

首先，分别对得到的视频复合特征进行全局平均处理，得到视频复合特征对应的全局特征，然后通过一层带Relu激活函数和一层带Sigmoid激活函数的全连接网络层，以及两层的非线性层计算全局特征的影响力。

最后，将影响力和视频复合特征进行特征向量相乘，并与视频复合特征残差相加，得到视频复合特征对应的标定特征，从而突出重要的特征，弱化无用的特征。

其中，步骤“(4)在高速层和预测层根据融合特征预测目标视频所属的视频类型”，

由于不同的卷积窗口宽度是超参数，采用高速层对多个尺度的标定特征进行筛选融合处理，得到融合特征，可以进一步自适应地融合全局特征和每一维的特征。

参考图2b的高速层部分，在高速层和预测层根据融合特征预测目标视频所属的视频类型output的公式如下：

Gate＝Sigmoid(Input W₁)

Trans＝Tanh(Input W₂)

Output＝Trans⊙Gate+Input⊙(1-Gate)

其中，Input为输入高速层的融合特征，W₁为图2b高速层中门结构Gate的稠密层Dense Layer的网络参数，W₂为为图2b高速层中变换结构Trans的另一个稠密层DenseLayer的网络参数，⊙表示对应元素相乘。

该高速层可以解决随着视频分类模型的网络深度加深，梯度信息回流受阻从而造成的网络训练困难问题。

五、若目标视频所属的视频类型为游戏作弊类型，则主控服务器将目标视频发送给人工客户端，以便人工客户端对该目标视频进行进一步人工审核。

在游戏视频审核场景中，从举报渠道得到待审核视频后，客服人员一般需要完整观看每个视频，然后才能确认视频是否作弊，但是举报视频中有一大部分视频是正常的，且同一个视频中作弊部分的时长也可能只占该视频的一小部分，故客服完全审核所有视频，需要过大的人力成本，故本发明可以在人工审核之前采用机器学习的方法先将游戏视频筛选一遍，得到游戏视频的作弊概率，然后优先把高作弊概率的游戏视频推荐给人工客服进行人工审核，从而提高客服的审核效率，节省了人工成本。

通过实验，申请人发现众多的视频分类模型中，本发明提出的视频分类模型具有最好的预测效果。

其中，此次实验分别采用人工审核、本发明提出的视频分类模型和其它多种视频分类模型对线下测试集合进行实验，得到的实验结果为黑白比，即，作弊类型的视频数量和非作弊类型的视频数量之比。

其中，采用人工审核测试线下测试集合所得到的黑白比是600:6102，本发明提出的视频分类模型和其它多种视频分类模型的Top N黑白比预测效果如表1所示：

表1

其中，Top200表示预测概率最高的200个样本的黑白比，以此类推，Top400是表示预测概率最高的400个样本的黑白比，Top600是表示预测概率最高的600个样本的黑白比。

故根据表1中可以知，本申请提出的视频分类模型的效果是最优的。

此外，在本测试集合上，如果随机猜测视频的类型，其准确率约为0.09，而本文提出的视频分类模型在取预测结果的Top200时，覆盖率是0.246，准确率是0.74；在取预测结果的Top400时，覆盖率是0.426，准确率是0.64；在取预测结果的Top600时，覆盖率是0.531，准确率是0.531。与随机猜测相比，在同时覆盖50％时，准确率提高约6～7倍。

由上可知，在本发明实施例中，主控服务器向获取服务器发送目标视频；获取服务器从主控服务器接收到目标视频后，根据目标视频获取图像内容特征序列，并将图像内容特征序列发送给主控服务器；主控服务器从获取服务器接收到目标视频的图像内容特征序列后，将目标视频的图像内容特征序列发送给预测服务器；预测服务器从主控服务器接收到目标视频的图像内容特征序列后，根据图像内容特征序列预测目标视频所属的视频类型，并将目标视频所属的视频类型发送给主控服务器；若目标视频所属的视频类型为游戏作弊类型，则主控服务器将目标视频发送给人工客户端，以便人工客户端对该目标视频进行进一步审核。

由此本方案的获取服务器、预测服务器以及人工审核均可以同时进行，大大提高了视频分类的效率，此外，预测服务器可以采取多种不同的特征嵌入方式来得到目标视频的多维视频内容特征，同时，对其进行多尺度卷积处理和重新标定融合处理，得到包含不同层次、维度以及具有优秀的时序性的融合特征，从而使得采用该融合特征预测视频类型时的准确度。

为了更好地实施以上方法，本发明实施例还提供一种视频分类装置，该视频分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以视频分类装置具体集成在服务器中为例，对本发明实施例的方法进行详细说明。

例如，如图3所示，该视频分类装置可以包括获取单元301、多维单元302、多尺度单元303、融合单元304以及预测单元305，如下：

(一)获取单元301：

获取单元301可以用于获取目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征。

在一些实施例中，获取单元301可以用于：

获取目标视频；

对目标视频进行分帧处理，得到多帧图像；

对图像进行关键帧识别，确定目标视频的关键帧图像；

对图像内容进行内容识别，得到图像对应的图像内容特征。

(二)多维单元302：

多维单元302可以用于基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征。

在一些实施例中，多维单元302可以包括第一维度子单元、第二维度子单元和多维子单元，如下：

(1)第一维度子单元：

第一维度子单元可以用于对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征。

(2)第二维度子单元：

第二维度子单元可以用于对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征。

(3)多维子单元：

多维子单元可以用于根据第一维度的视频内容特征和第二维度的视频内容特征确定目标视频的多维视频内容特征。

在一些实施例中，第一维度子单元，可以用于：

对不同内容类型的子内容特征所对应的内容类型进行特征嵌入，得到子内容特征所对应的嵌入特征；

在一些实施例中，第二维度子单元，可以用于：

对子内容特征所对应的内容类型进行独热编码，得到子内容特征所对应的独热特征；

对拼接特征进行全连接映射处理，得到第二维度的视频内容特征。

(三)多尺度单元303：

多尺度单元303可以用于基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征。

在一些实施例中，视频复合特征可以包括视频浅层特征、视频深层特征，多尺度单元303可以包括浅层子单元和深层子单元，如下：

(1)浅层子单元：

浅层子单元可以用于采用多个不同尺度的卷积核对多维视频内容特征进行卷积计算，得到多个不同尺度的视频浅层特征。

(2)深层子单元：

深层子单元可以用于采用门控卷积网络对视频浅层特征进行特征筛选处理，得到视频深层特征。

在一些实施例中，门控卷积网络可以包括第一门控卷积层和第二门控卷积层，视频深层特征可以包括第一视频深层特征和第二视频深层特征，深层子单元，可以包括第一深层子模块、中间子模块和第二深层子模块，如下：

A.第一深层子模块：

第一深层子模块可以用于采用第一门控卷积层对视频浅层特征进行初步筛选处理，得到第一视频深层特征。

B.中间子模块：

中间子模块可以用于基于视频浅层特征和第一视频深层特征进行残差融合处理，得到中间特征。

C.第二深层子模块：

第二深层子模块可以用于采用第二门控卷积层对中间特征进行再次筛选处理，得到第二视频深层特征。

在一些实施例中，第一门控卷积层可以包括第一逻辑回归卷积核和第一卷积核，第一深层子模块可以用于：

在一些实施例中，第二门控卷积层可以包括第二逻辑回归卷积核和第二卷积核，第二深层子模块可以用于：

根据第二待筛选特征和第二逻辑回归特征确定待池化特征；

(四)融合单元304：

融合单元304可以用于对多个尺度的视频复合特征进行标定融合处理，得到融合特征。

在一些实施例中，融合单元304可以包括标定子单元和筛选融合子单元，如下：

(1)标定子单元：

标定子单元可以用于基于多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征；

(2)筛选融合子单元：

筛选融合子单元可以用于采用高速网络对多个尺度的标定特征进行筛选融合处理，得到融合特征。

在一些实施例中，标定子单元，可以用于：

计算全局特征的影响力；

(五)预测单元305：

预测单元305可以用于根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视频分类装置由获取单元获取目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征；多维单元基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；多尺度单元基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；融合单元对多个尺度的视频复合特征进行标定融合处理，得到融合特征；预测单元根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。

由此，本发明实施例可以提升视频分类方法的准确度。

本发明实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

例如，视频分类装置可以集成在主控服务器、获取服务器和预测服务器中，该主控服务器与获取服务器、预测服务器通信，用于向获取服务器发送目标视频，以及从预测服务器接收目标视频的视频类型；

获取服务器用于从主控服务器获取目标视频，并对目标视频进行处理，得到目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征；

预测服务器用于基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征，以及基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征，以及对多个尺度的视频复合特征进行标定融合处理，得到融合特征，并根据融合特征预测目标视频所属的视频类型，最后将目标视频的视频类型发送给主控服务器。

主控服务器、获取服务器和预测服务器可以构成视频分类系统。

在一些实施例中，主控服务器、获取服务器和预测服务器也可以由一台服务器来实现。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标视频的图像内容特征序列，目标视频由多帧图像构成，图像内容特征序列包括图像对应的图像内容特征，图像内容特征包括多个内容类型的子内容特征；

基于图像内容特征序列和子内容特征进行多维度嵌入处理，得到目标视频的多维视频内容特征；

基于多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征；

对多个尺度的视频复合特征进行标定融合处理，得到融合特征；

根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本发明实施例可提升视频分类方法的准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频分类方法中的步骤。例如，该指令可以执行如下步骤：

根据融合特征预测目标视频所属的视频类型，以便对目标视频进行分类。其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频分类方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视频分类方法、装置、系统、服务器和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频分类方法，其特征在于，包括：

2.如权利要求1所述的视频分类方法，其特征在于，所述视频复合特征包括视频浅层特征、视频深层特征；

所述基于所述多维视频内容特征进行多尺度卷积处理，得到多个尺度的视频复合特征，包括：

采用多个不同尺度的卷积核对所述多维视频内容特征进行卷积计算，得到多个不同尺度的视频浅层特征；

采用门控卷积网络对所述视频浅层特征进行特征筛选处理，得到视频深层特征。

3.如权利要求2所述的视频分类方法，其特征在于，所述门控卷积网络包括第一门控卷积层和第二门控卷积层，所述视频深层特征包括第一视频深层特征和第二视频深层特征；

所述采用门控卷积网络对所述视频浅层特征进行特征筛选处理，得到视频深层特征，包括：

采用第一门控卷积层对所述视频浅层特征进行初步筛选处理，得到第一视频深层特征；

基于所述视频浅层特征和所述第一视频深层特征进行残差融合处理，得到中间特征；

采用第二门控卷积层对所述中间特征进行再次筛选处理，得到第二视频深层特征。

4.如权利要求3所述的视频分类方法，其特征在于，所述第一门控卷积层包括第一逻辑回归卷积核和第一卷积核；

所述采用第一门控卷积层对所述视频浅层特征进行初步筛选处理，得到第一视频深层特征，包括：

5.如权利要求3所述的视频分类方法，其特征在于，所述第二门控卷积层包括第二逻辑回归卷积核和第二卷积核；

所述采用第二门控卷积层对所述中间特征进行再次筛选处理，得到第二视频深层特征，包括：

6.如权利要求1所述的视频分类方法，其特征在于，基于所述图像内容特征序列和所述子内容特征进行多维度嵌入处理，得到所述目标视频的多维视频内容特征，包括：

对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征；

对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征；

根据所述第一维度的视频内容特征和所述第二维度的视频内容特征确定所述目标视频的多维视频内容特征。

7.如权利要求6所述的视频分类方法，其特征在于，所述对不同内容类型的子内容特征进行先嵌入后融合处理，得到第一维度的视频内容特征，包括：

8.如权利要求6所述的视频分类方法，其特征在于，所述对所有内容类型的子内容特征进行先融合后嵌入处理，得到第二维度的视频内容特征，包括：

9.如权利要求1所述的视频分类方法，其特征在于，对所述多个尺度的视频复合特征进行标定融合处理，得到融合特征，包括：

基于所述多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征；

采用高速网络对所述多个尺度的标定特征进行筛选融合处理，得到融合特征。

10.如权利要求9所述的视频分类方法，其特征在于，所述基于所述多个尺度的视频复合特征进行标定处理，得到多个尺度的标定特征，包括：

计算所述全局特征的影响力；

11.如权利要求1所述的视频分类方法，其特征在于，所述获取目标视频的图像内容特征序列，包括：

获取目标视频；

对所述目标视频进行分帧处理，得到多帧图像；

12.一种视频分类装置，其特征在于，包括：

13.一种视频分类系统，其特征在于，所述视频分类系统包括主控模块、获取模块、预测模块，所述，其中：

14.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～11任一项所述的视频分类方法中的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～11任一项所述的视频分类方法中的步骤。