CN113010736A

CN113010736A - 一种视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN113010736A
Application number: CN201911328274.2A
Authority: CN
Inventors: 陈熊; 蔡媛; 樊鸿飞; 汪贤; 鲁方波; 成超; 张海斌; 熊宝玉
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-22
Anticipated expiration: 2039-12-20
Also published as: CN113010736B

Abstract

本申请实施例提供的一种视频分类方法、装置、电子设备及存储介质，获取待分类视频的N张视频帧；从N张视频帧中确定S个目标图像分组；将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量；对S个特征向量进行特征融合，得到N张视频帧的分类特征向量；根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果。实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。

Description

一种视频分类方法、装置、电子设备及存储介质

技术领域

本申请涉及信息技术领域，特别是涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

随着智能高清技术的发展，基于图像分析的视频处理技术越来越多的被应用到实际任务当中。短视频作为短视频厂商的主要盈利来源，对其进行有效的分析，比如分类，目标分割，视频概述等等，对后续短视频的处理起着至关重要的作用。

目前，一般通过C3D(3D ConvNets，3维卷积网络)进行短视频的分类。现有技术中，在通过C3D进行短视频的分类时，通常使用单一时间间隔采样的视频帧作为C3D的训练输入，因此在整个网络学习过程中提取的也是单一时间粒度上的特征。在实际分类过程中，因为C3D中输入的为连续视频帧，所提取到的也通常是单一时间粒度的特征，然后仅通过单一时间粒度的特征进行视频分类，分类结果准确度底。

发明内容

本申请实施例的目的在于提供一种视频分类方法、装置、电子设备及存储介质，以实现提高视频分类结果的准确度。具体技术方案如下：

第一方面，本申请提供了一种视频分类方法，包括：

获取待分类视频的N张视频帧；

从N张视频帧中确定S个目标图像分组，其中，每个目标图像分组均包括多张视频帧，不同目标图像分组中各视频帧之间的时序间隔不同；

将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量，其中，特征向量用于表征目标图像的空间特征和时序特征；

对S个特征向量进行特征融合，得到N张视频帧的分类特征向量，其中，分类特征向量包括N张视频帧的空间特征和时序特征；

根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果。

可选的，从N张视频帧中确定S个目标图像分组，包括：

按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果，其中，每个时序间隔对应的分组结果包括多个图像分组；

分别从每个时序间隔对应的分组结果中随机选取一组图像分组，得到S个目标图像分组。

可选的，按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果，包括：

按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧，其中，预设规则为将N张视频帧作为一个视频片段，对同一视频片段在相同位置进行截取，对不同视频片段在不同位置进行截取；

按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果。

可选的，按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果之前，上述方法还包括：

对截取后的N张视频帧中的各视频帧进行映射处理，得到截取后的N张视频帧中的各视频帧对应的浅层特征图。

可选的，获取待分类视频的N张视频帧，包括：

在待分类视频中选取一视频帧，作为起始视频帧；

在待分类视频中，从起始视频帧开始向前或向后选取连续的N张视频帧。

可选的，S个特征向量为相同维度的特征向量。

可选的，在获取待分类视频的N张视频帧之前，上述方法还包括：

获取多个样本视频和待训练的网络模型，其中，样本视频包括N张视频帧，样本视频标记有视频分类结果；

选取一个样本视频，从选取的样本视频的N张视频帧中选取S个样本图像分组，其中，每个样本图像分组均包括多张视频帧，不同样本图像分组中各视频帧之间的时序间隔不同；

将S个样本图像分组分别输入到待训练的网络模型的S个特征提取网络中，获取各样本图像分组特征向量，得到S个样本特征向量；

利用待训练的网络模型对S个样本特征向量进行特征融合，得到样本分类特征向量；

利用待训练的网络模型对样本分类特征向量进行分类，得到预测分类结果；

根据选取的样本视频的预测分类结果及选取的样本视频标记的视频分类结果，计算待训练的网络模型的损失；

根据网络模型的损失对待训练的网络模型的参数进行调整；

选取样本视频对待训练的网络模型继续训练，直至待训练的网络模型的损失小于预设阈值，得到训练好的网络模型。

第二方面，本申请提供了一种视频分类装置，包括：

视频帧获取模块，用于获取待分类视频的N张视频帧；

视频帧分组模块，用于从N张视频帧中确定S个目标图像分组，其中，每个目标图像分组均包括多张视频帧，不同目标图像分组中各视频帧之间的时序间隔不同；

图像输入模块，用于将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量，其中，特征向量用于表征目标图像的空间特征和时序特征；

特征融合模块，用于对S个特征向量进行特征融合，得到N张视频帧的分类特征向量，其中，分类特征向量包括N张视频帧的空间特征和时序特征；

视频分类模块，用于根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果。

可选的，视频帧分组模块，包括：

视频帧分类子模块，用于按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果，其中，每个时序间隔对应的分组结果包括多个图像分组；

图像分组子模块，用于分别从每个时序间隔对应的分组结果中随机选取一组图像分组，得到S个目标图像分组。

可选的，图像分组子模块，包括：

区域截取单元，用于按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧，其中，预设规则为将N张视频帧作为一个视频片段，对同一视频片段在相同位置进行截取，对不同视频片段在不同位置进行截取；

分组规则单元，用于按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果。

可选的，图像分组子模块，还包括：

映射单元，用于对截取后的N张视频帧中的各视频帧进行映射处理，得到截取后的N张视频帧中的各视频帧对应的浅层特征图；

可选的，视频帧获取模块，包括：

起始帧子模块，用于在待分类视频中选取一视频帧，作为起始视频帧；

连续选区子模块，用于在待分类视频中，从起始视频帧开始向前或向后选取连续的N张视频帧。

可选的，S个特征向量为相同维度的特征向量。

可选的，上述装置还用于：

根据网络模型的损失对待训练的网络模型的参数进行调整；

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现上述任一视频分类方法。

根据本公开实施例的第四方面，提供一种存储介质，

当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一视频分类方法。

本申请实施例提供的一种视频分类方法、装置、电子设备及存储介质，获取待分类视频的N张视频帧；从N张视频帧中确定S个目标图像分组；将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量；对S个特征向量进行特征融合，得到N张视频帧的分类特征向量；根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果。实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种视频分类方法的一种流程图；

图2为本申请实施例的一种目标图像分组方法的流程图；

图3为本申请实施例的一种视频帧分类方法的流程图；

图4为本申请实施例的另一种视频帧分类方法的流程图；

图5为本申请实施例的一种视频帧选取方法的流程图；

图6为本申请实施例的一种视频分类方法的实例图；

图7为本申请实施例的一种视频分类装置的一种示意图；

图8为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请实施例中的专业术语进行解释：

卷积神经网络(Convolutional Neural Network，CNN)：是一个专门针对图像识别问题设计的神经网络。它模仿人类识别图像的多层过程：瞳孔摄入像素；大脑皮层某些细胞初步处理，发现形状边缘、方向；抽象判定形状(如圆形、方形)；进一步抽象判定(如判断物体是气球)。

多粒度特征(Multiple Granularity Feature)：是在现有特征提取方法上将网络进行细化，使得网络不仅能学习到粗粒度的特征，同时也能学习到细粒度的特征。

场景分类(Scene Classification)：通过用卷积神经网络对大量不同类型的场景视频数据进行学习，使得同一类型的场景具有相似的特征描述，进而对不同的视频进行场景分类。

为了实现通过多种时间粒度的特征进行视频的分类，提高视频分类的精度，本申请提供了一种视频分类方法、装置、电子设备及存储介质，以下进行详细说明。

图1为本申请实施例的一种视频分类方法的一种流程图，如图1所示，视频分类方法，包括以下步骤：

在步骤S11中，获取待分类视频的N张视频帧。

本申请实施例的视频分裂方法针对的是智能终端设备中的视频，因此可以通过智能终端设备执行，该智能终端设备可以为通过训练好的网络模型进行视频分类的智能设备，该智能终端设备也可以进行网络模型的训练并可以通过自身训练好的网络模型进行视频的分类，具体的，该智能终端设备可以为电脑、智能手机或服务器等。

其中，上述待分类的视频可以是多种格式的视频，例如，AVI(Audio VideoInterleaved，音频视频交错格式)、MP4(Moving Picture Experts Group 4，动态图像专家组4)等。所获得的视频帧可以为连续的视频帧也可以为从上述待分类视频中随机选取的视频帧，本申请对此不进行限定。其中，获取待分类视频的N张视频帧，可以通过现有技术的方法进行获取。

在步骤S12中，从N张视频帧中确定S个目标图像分组。

其中，每个目标图像分组均包括多张视频帧，不同目标图像分组中各视频帧之间的时序间隔不同。

其中，上述从N张视频帧中选取S个目标图像分组，可以为从N张视频帧中选取S个目标图像分组，通过不同的时序间隔对上述视频帧进行分类。例如，对上述N张视频帧按照时间顺序进行排序后，每间隔一张选取一张视频帧，从而将上述N张视频帧分为两组视频帧，或每间隔两张选区一张，从而将上述N张视频帧分为三组，并分别在各分组结果中选取一组图像分组。也可以为直接从N张视频帧中选取S个目标图像分组。本申请对此不进行限定。

在步骤S13中，将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量。

其中，特征向量用于表征目标图像的空间特征和时序特征，空间特征指的是每一帧的空间信息，时序特征表征帧与帧之间的时序关系。

可选的，S个特征向量为相同维度的特征向量。

其中，上述获取各图像分组的特征向量，可以获取个图像分组中各图像的特征向量。

在步骤S14中，对S个特征向量进行特征融合，得到N张视频帧的分类特征向量。

其中，分类特征向量包括N张视频帧的空间特征和时序特征。其中，对上述特征向量进行特征融合，可以采取多种不同的融合方式，例如，将上述特征向量通过拼接的方式进行融合，得到分类特征向量。即将上述特征向量进行前后的拼着，例如将向量(1,2)和向量(3,4)拼接后得到(1,2,3,4)。或通过concat函数将上述特征向量连接起来。

通过对上述S个特征向量进行特征融合，得到N张视频帧的分类特征向量，所得到的分类特征向量可以包括S个特征向量的特征，从而便于通过多个特征对视频进行分类。

在步骤S15中，根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果。

其中，根据N张视频帧的分类特征向量对待分类视频进行分类，可以将N张视频帧作为一个视频片段进行分类，从待分类视频中选取多个视频片段，取所有片段的分类结果中分类最多的分类结果作为整个视频的分类结果。

可见，通过本申请实施例的视频分类方法，实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。

在一种可能的实施方式中，如图2所示，上述从N张视频帧中选取S个目标图像分组包括以下步骤：

在步骤S121中，按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果。

其中，每个时序间隔对应的分组结果包括多个图像分组。例如，对于图像分组(1,2,3…32)，按时序间隔为2分组，可以分成(1,3,5…31)和(2,4,6…32)两组，得到第一分类结果。按时序间隔为4分组，可以分成(1,5,9…)，(2,6,10…)，(3,7,11…)和(4,8,12…)四组，得到第二分类结果。按时序间隔为8分组，可以分成(1,9…)，(2,10…)等八组，得到第三分类结果。

在步骤S122中，分别从每个时序间隔对应的分组结果中随机选取一组图像分组，得到S个目标图像分组。

通过对上述按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果，其中，每个时序间隔对应的分组结果包括多个图像分组；分别从每个时序间隔对应的分组结果中随机选取一组图像分组，得到S个目标图像分组。每一组可以包含不同的时间粒度特性，通过该分组对上述待分类视频进行分类，可以通过不同的时间粒度特性进行待分类视频的分类。

可选的，参见图3，上述按照不同的时序间隔对N张视频帧进行分组，得到每个时序间隔对应的分组结果，包括：

S1211，按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧。

其中，预设规则为将N张视频帧作为一个视频片段，对同一视频片段在相同位置进行截取，对不同视频片段在不同位置进行截取。

其中，上述按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧，可以为通过预设规则截取视频帧中的局部区域，得到截取后的N张视频帧。

S1212，按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果。

其中，每个图像分组均包括多张区域图像，不同分类结果的图像分组中各区域图像之间的时序间隔不同。

其中，上述通过该预设规则中的图像分组规则，对该预设规则对应的图像区域组中的区域图像进行分组，可以为通过视频帧的时间间隔顺序进行图像的分组。

可见，通过上述按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧；按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果，可以得到待分类视频中的区域图像信息，并通过分组得到不同时间粒度的图像分组。

可选的，参见图4，按照不同的时序间隔对截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果之前，上述方法还包括：

S1213，对截取后的N张视频帧中的各视频帧进行映射处理，得到截取后的N张视频帧中的各视频帧对应的浅层特征图。

其中，通过上述对N张视频帧中的各视频帧进行映射处理，可以将获取的视频帧从RGB(一种色彩模式)图像映射成特征图，其中上述映射可以通过多种现有技术实现。

可见，通过对N张视频帧中的各视频帧进行映射处理，得到N张视频帧中的各视频帧对应的浅层特征图，可以获取上述视频帧的浅层信息的不同时间粒度的特征信息。

在一种可能的实施方式中，如图5所示，上述获取待分类视频的N张视频帧包括：

在步骤S111中，在待分类视频中选取一视频帧，作为起始视频帧。

其中，上述起始视频帧为获取样本视频帧的参考视频帧，具体的可以为待分类视频中的任一视频帧。

在步骤S112中，在待分类视频中，从起始视频帧开始向前或向后选取连续的N张视频帧。

其中，上述起始视频帧可以作为待分类视频中获取视频帧的参考视频帧，例如，在一段视频中随机选取一帧a，以a作为起始帧取连续32帧(按照帧的顺序记为1,2,3…32)作为一个片段，当选取的帧a处于视频末尾时(a后面不足32帧)，此时在当前视频中重新选取起始帧来代替a。或以a作为结尾帧取之前的连续32帧作为一个片段。

可见，通过本申请实施例的视频帧获取方法，实现了在待分类视频中选取一视频帧，作为起始视频帧，在待分类视频中，从起始视频帧开始向前或向后选取连续的N张视频帧，从而可以在待分类视频的任一位置获取到连续的多张视频帧，视频对待分类视频的多个时间粒度上的采样。

可选的，预先训练深度学习模型的步骤包括：

根据网络模型的损失对待训练的网络模型的参数进行调整；

本申请实施例的一种视频分类方法的实例流程，参见图6，图6为本申请实施例的一种视频分类方法的实例图，包括：

在步骤A中，在一段视频中随机选取一帧a，以a作为起始帧取连续32帧(按照帧的顺序记为1,2,3…32)作为一个片段，将这32帧调整成256×256像素大小的图片，并随机裁剪(指的是在训练过程中不同的视频片段裁剪位置不同，同一片段裁剪位置相同)成224×224像素大小的图片，将该图片作为网络的输入。当选取的帧a处于视频末尾时(a后面不足32帧)，此时在当前视频中重新选取起始帧来代替a。

在步骤B中，通过主干网络提取视频片段的浅层特征，将视频帧从RGB(一种色彩模式)图像映射成特征图，输出为32×C×H×W，其中C为主干网络输出特征图的通道，H和W为主干网络输出特征图的高和宽。

在步骤C中，通过三个采用同样的C3D网络结构子网络，提取视频片段的空间特征(高层抽象语义特征，指的是每一帧的空间信息)和时序特征(帧与帧之间的时序关系)。将主干网络提取出来的特征按照不同的时序间隔进行分组。

1、按时序间隔为2分组，可以分成(1,3,5…31)和(2,4,6…32)两组，子网络1随机从这两组中选择一组，16×C×H×W作为第一子网络的输入。

2、按时序间隔为4分组，可以分成(1,5,9…)，(2,6,10…)，(3,7,11…)和(4,8,12…)四组，子网络2随机从这四组中选择一组，8×C×H×W作为第二子网络的输入。

3、按时序间隔为8分组，可以分成(1,9…)，(2,10…)等八组，子网络3随机从这八组中选择一组，4×C×H×W作为第三子网络的输入。

在步骤D中，通过池化处理将不同子网络的输出(子网络的输入大小不一致，因此输出大小也不一样)处理成同样大小，这里将三个子网络的输出处理成2048维特征。

在步骤E中，将池化处理后的特征通过concat函数连接起来，形成3×2048维特征，将融合后的特征作为视频片段的特征用来分类。

在步骤F中，将视频每一个连续的32帧作为一个视频片段通过上述方法进行分类，取所有片段分类结果最多的作为整个视频的分类结果。

图7为本申请实施例的一种视频分类装置的一种示意图，如图7所示，视频分类装置，包括：

视频帧获取模块171，用于获取待分类视频的N张视频帧；

视频帧分组模块172，用于从N张视频帧中确定S个目标图像分组，其中，每个目标图像分组均包括多张视频帧，不同目标图像分组中各视频帧之间的时序间隔不同；

图像输入模块173，用于将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量，其中，特征向量用于表征目标图像的空间特征和时序特征；

特征融合模块174，用于对S个特征向量进行特征融合，得到N张视频帧的分类特征向量，其中，分类特征向量包括N张视频帧的空间特征和时序特征；

视频分类模块175，用于根据N张视频帧的分类特征向量对待分类视频进行分类，得到待分类视频的分类结果

可选的，视频帧分组模块172，包括：

可选的，图像分组子模块，包括：

可选的，图像分组子模块，还包括：

可选的，视频帧获取模块171，包括：

可选的，S个特征向量为相同维度的特征向量。

可选的，上述装置还用于：

根据网络模型的损失对待训练的网络模型的参数进行调整；

可见，通过本申请实施例的视频分类装置，实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序。

上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

获取待分类视频的N张视频帧；

将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各目标图像分组的特征向量，得到S个特征向量；

对S个特征向量进行特征融合，得到N张视频帧的分类特征向量；

可选的，参见图8，本申请实施例的电子设备还包括通信接口802和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一视频分类方法。

可见，通过本申请实施例的电子设备，实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

获取待分类视频的N张视频帧；

可选的，上述计算机程序被处理器执行时，还能够实现上述任一视频分类方法。

可见，通过本申请实施例的计算机可读存储介质，实现了通过获取不同时间粒度的特征后，进行融合，根据融合结果对待分类视频进行分类，从而实现提取多种时间粒度的特征进行视频的分类，提高视频分类的精度。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频的N张视频帧；

从所述N张视频帧中确定S个目标图像分组，其中，每个所述目标图像分组均包括多张视频帧，不同所述目标图像分组中各视频帧之间的时序间隔不同；

将S个所述目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各所述目标图像分组的特征向量，得到S个特征向量，其中，所述特征向量用于表征所述目标图像的空间特征和时序特征；

对所述S个特征向量进行特征融合，得到所述N张视频帧的分类特征向量，其中，所述分类特征向量包括所述N张视频帧的空间特征和时序特征；

根据所述N张视频帧的分类特征向量对所述待分类视频进行分类，得到所述待分类视频的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述N张视频帧中确定S个目标图像分组，包括：

按照不同的时序间隔对所述N张视频帧进行分组，得到每个时序间隔对应的分组结果，其中，所述每个时序间隔对应的分组结果包括多个图像分组；

分别从所述每个时序间隔对应的分组结果中随机选取一组图像分组，得到S个目标图像分组。

3.根据权利要求1所述的方法，其特征在于，所述按照不同的时序间隔对所述N张视频帧进行分组，得到每个时序间隔对应的分组结果，包括：

按照预设规则从所述N张视频帧的每一视频帧中截取预设规格的图像，得到截取后的N张视频帧，其中，所述预设规则为将所述N张视频帧作为一个视频片段，对同一视频片段在相同位置进行截取，对不同视频片段在不同位置进行截取；

按照不同的时序间隔对所述截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果。

4.根据权利要求3所述的方法，其特征在于，所述按照不同的时序间隔对所述截取后的N张视频帧进行分组，得到每个时序间隔对应的分组结果之前，所述方法还包括：

对所述截取后的N张视频帧中的各视频帧进行映射处理，得到所述截取后的N张视频帧中的各视频帧对应的浅层特征图。

5.根据权利要求1所述的方法，其特征在于，所述获取待分类视频的N张视频帧，包括：

在所述待分类视频中选取一视频帧，作为起始视频帧；

在所述待分类视频中，从所述起始视频帧开始向前或向后选取连续的N张视频帧。

6.根据权利要求1所述的方法，其特征在于，所述S个特征向量为相同维度的特征向量。

7.根据权利要求1所述的方法，其特征在于，在获取待分类视频的N张视频帧之前，所述方法还包括：

获取多个样本视频和待训练的网络模型，其中，所述样本视频包括N张视频帧，所述样本视频标记有视频分类结果；

选取一个样本视频，从选取的样本视频的N张视频帧中选取S个样本图像分组，其中，每个所述样本图像分组均包括多张视频帧，不同所述样本图像分组中各视频帧之间的时序间隔不同；

将S个所述样本图像分组分别输入到所述待训练的网络模型的S个特征提取网络中，获取各所述样本图像分组特征向量，得到S个样本特征向量；

利用所述待训练的网络模型对所述S个样本特征向量进行特征融合，得到样本分类特征向量；

利用所述待训练的网络模型对所述样本分类特征向量进行分类，得到预测分类结果；

根据选取的样本视频的预测分类结果及选取的样本视频标记的视频分类结果，计算所述待训练的网络模型的损失；

根据所述网络模型的损失对所述待训练的网络模型的参数进行调整；

选取样本视频对所述待训练的网络模型继续训练，直至所述待训练的网络模型的损失小于预设阈值，得到训练好的网络模型。

8.一种视频分类装置，其特征在于，包括：

视频帧获取模块，用于获取待分类视频的N张视频帧；

视频帧分组模块，用于从所述N张视频帧中确定S个目标图像分组，其中，每个所述目标图像分组均包括多张视频帧，不同所述目标图像分组中各视频帧之间的时序间隔不同；

图像输入模块，用于将S个所述目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中，获取各所述目标图像分组的特征向量，得到S个特征向量，其中，所述特征向量用于表征所述目标图像的空间特征和时序特征；

特征融合模块，用于对所述S个特征向量进行特征融合，得到所述N张视频帧的分类特征向量，其中，所述分类特征向量包括所述N张视频帧的空间特征和时序特征；

视频分类模块，用于根据所述N张视频帧的分类特征向量对所述待分类视频进行分类，得到所述待分类视频的分类结果。

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-8任一所述的视频分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的视频分类方法。