CN110781818B

CN110781818B - 视频分类方法、模型训练方法、装置及设备

Info

Publication number: CN110781818B
Application number: CN201911024848.7A
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2023-04-07
Anticipated expiration: 2039-10-25
Also published as: CN110781818A

Abstract

本申请公开了一种视频分类方法、模型训练方法、装置及设备，所述方法包括：获取视频分类模型；根据所述视频分类模型的特征提取网络对所述视频中的视频帧进行特征提取，得到所述视频帧的帧特征向量；根据所述视频帧的帧特征向量和所述视频分类模型中每种标签的最大特征向量的乘积，确定所述视频帧所属的目标标签，所述目标标签是所述标签中的一个或多个；对于每种所述目标标签，根据所述视频中属于所述目标标签的连续多个视频帧，标记出所述目标标签在所述视频中的开始位置和结束位置。

Description

视频分类方法、模型训练方法、装置及设备

技术领域

本申请涉及计算机视觉领域，特别涉及一种视频分类方法、模型训练方法、装置及设备。

背景技术

自动理解视频内容已经成为许多应用场景的关键技术，如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。

相关技术中，对视频编码为一系列特征向量，包括视觉特征和音频特征，将特征向量输入至训练好的深度学习模型中，得到该视频对应的标签。该标签是视频级标签。典型的，该深度学习模型是基于Youtube-8M数据集训练得到。Youtube-8M数据集是包括610万个视频集和3862个类的大型标记视频数据集。

但是在一些场景中，希望能够输出标签所对应的视频片段在视频中的开始位置和结束位置。这需要数据集中存在大量精准标注有标签的开始位置和结束位置的样本视频才能够实现，目前尚不存在该类型数据集。

发明内容

本申请实施例提供了一种视频分类方法、模型训练方法、装置及设备，可以解决由于目前不存在大量精准标注有标签的开始位置和结束位置的数据集，因此深度学习模型无法准确输出标签在视频中的出现位置的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种视频分类方法，所述方法包括：

获取视频分类模型，所述视频分类模型包括特征提取网络和每种标签的最大特征向量；

根据所述特征提取网络对所述视频中的视频帧进行特征提取，得到所述视频帧的帧特征向量；

根据所述视频帧的帧特征向量和所述每种标签的最大特征向量的乘积，确定所述视频帧所属的目标标签，所述目标标签是所述标签中的一个或多个；

对于每种所述目标标签，根据所述视频中属于所述目标标签的连续多个视频帧，标记出所述目标标签在所述视频中的开始位置和结束位置。

根据本申请的另一方面，提供了一种模型训练方法，所述方法包括：

采用视频数据集对分类模型进行训练，得到训练后的分类模型，所述训练后的分类模型包括：帧特征提取层、特征增强层和分类层；

根据所述帧特征提取层和所述特征增强层，得到特征提取网络；

根据所述特征提取网络提取属于同一种标签的视频组中的视频帧的帧特征向量，得到所述视频组的帧特征向量矩阵；

根据所述视频组的帧特征向量矩阵得到所述标签的最大特征向量，所述标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于所述标签；

根据所述特征提取网络和每种标签的最大特征向量，得到所述视频分类模型。

根据本申请的另一方面，提供了一种视频分类装置，所述装置包括：

获取模块，用于获取视频分类模型，所述视频分类模型包括特征提取网络和每种标签的最大特征向量；

提取模块，用于根据所述特征提取网络对所述视频中的视频帧进行特征提取，得到所述视频帧的帧特征向量；

确定模块，用于根据所述视频帧的帧特征向量和所述每种标签的最大特征向量的乘积，确定所述视频帧所属的目标标签，所述目标标签是所述标签中的一个或多个；

输出模块，用于对于每种所述目标标签，根据所述视频中属于所述目标标签的连续多个视频帧，输出所述目标标签在所述视频中的开始位置和结束位置。

根据本申请的另一方面，提供了一种模型训练装置，其特征在于，所述装置包括：

训练模块，用于采用视频数据集对分类模型进行训练，得到训练后的分类模型，所述训练后的分类模型包括：帧特征提取层、特征增强层和分类层；

抽取模块，用于根据所述帧特征提取层和所述特征增强层，得到特征提取网络；

矩阵模块，用于根据所述特征提取网络提取属于同一种标签的视频组中的视频帧的帧特征向量，得到所述视频组的帧特征向量矩阵；

向量模块，用于根据所述视频组的帧特征向量矩阵得到所述标签的最大特征向量，所述标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于所述标签；

构建模块，用于根据所述特征提取网络和每种标签的最大特征向量，得到所述视频分类模型。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频分类方法或模型训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频分类方法或模型训练方法。

本申请实施例至少可以存在如下技术效果：

通过在视频分类模型中提供标签对应的最大特征向量，根据该最大特征向量来预测视频中的每个视频帧是否属于该标签。当视频中存在属于该标签的连续多个视频帧时，根据连续多个视频帧在视频中的位置，输出该目标标签在视频中的开始位置和结束位置。由于标签对应的最大特征向量是通过传统的数据集训练得到的，不依赖于大量精准标注有标签的开始位置和结束位置的数据集，也能实现视频分类模型输出标签出现位置的功能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示意性实施例提供的视频分类模型的训练方法的流程图；

图2是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图3是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图4是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图5是本申请另一个示意性实施例提供的视频分类模型的训练方法的流程图；

图6是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图7是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图8是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图9是本申请另一个示意性实施例提供的视频分类方法的流程图；

图10是本申请另一个示意性实施例提供的视频分类方法的流程图；

图11是本申请另一个示意性实施例提供的视频分类方法的流程图；

图12是本申请另一个示意性实施例提供的视频分类方法的原理示意图；

图13是本申请另一个示意性实施例提供的视频分类模型的训练装置的框图；

图14是本申请另一个示意性实施例提供的视频分类模型的框图；

图15是本申请另一个示意性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供了一种视频分类模型，该视频分类模型不仅可以预测出视频所属的标签，还可以输出该标签在视频中的开始位置和结束位置。

图1示出了本申请一个实施例提供的视频分类模型的训练方法的流程图。该方法可以由计算机设备来实现。该方法包括：

步骤101，采用视频数据集对分类模型进行训练，得到训练后的分类模型，训练后的分类模型包括：帧特征提取层、特征增强层和分类层；

视频数据集包括：视频和标签之间的对应关系。比如，该视频数据集是Youtube-8M数据集。该视频数据集中不需要明确标注出标签在视频中的开始位置和结束位置。该视频数据集中的视频数量可以为几十万、几百万或几千万，本申请对此不加以限定。标签类别的数量可以为几个、几十个、几百个或几千个，本申请对此不加以限定。

如图2所示，以视频数据集中的4个视频为例，视频a标注有标签“新娘”、“汽车”、“山”；视频b标注有标签“新娘”和“蛋糕”；视频c标注有标签“汽车”、“山”、“蛋糕”；视频d标注有标签“新娘”和“蛋糕”。

如图3所示，分类模型包括：帧特征提取层302、特征增强层304和分类层306。该帧特征提取层302用于提取视频中的视频帧的帧特征向量，该帧特征提取层302可以是卷积神经网络InceptionNet或者移动端轻量级网络MobileNet。该特征增强层304用于对视频中的帧特征向量进行特征增强或特征融合，得到该视频的视频级特征向量，该特征增强层304可以是NetVLAD网络。该分类层306用于对每个潜在的标签输出一个概率值，概率值用于表示当前视频包含该标签的可能性，该分类层可以是逻辑斯谛回归算法。

对于视频数据集中的多个视频，将每个视频输入至分类模型进行预测，得到该视频的预测标签。将预测标签与该视频对应的标签之间的误差，采用误差反向传播算法对分类模型进行训练。当训练过程达到结束条件时，得到训练后的分类模型。

步骤102，根据帧特征提取层和特征增强层，得到特征提取网络；

对训练后的分类模型中的帧特征提取层302和特征增强层304进行提取，得到特征提取网络，如图4所示。该特征提取网络相对于训练后的分类模型，少了分类层306。

步骤103，根据特征提取网络提取属于同一种标签的视频组中的视频帧的帧特征向量，得到视频组的帧特征向量矩阵；

对于视频数据集中的多个视频，将属于同一种标签的视频汇总为视频组。比如图2中的视频a、视频b和视频d汇总为标签“新娘”对应的视频组，视频a和视频c汇总为标签“汽车”对应的视频组，视频a和视频c汇总为标签“山”对应的视频组，视频b、视频c和视频d汇总为标签“蛋糕”对应的视频组。

对于每种标签的视频组中的视频，将该视频的视频帧输入至特征提取网络中，能够得到该视频帧对应的帧特征向量。将该视频组中的所有视频的视频帧向量进行组合，得到视频组对应的帧特征向量矩阵E。

在一个示例中，本步骤包括如下两个步骤，如图5所示：

步骤103a、根据特征提取网络对属于同一种标签的视频组中n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组，第i个视频对应的帧特征向量组中对应有k_i个帧特征向量，i为不大于n的整数；

步骤103b、根据n个视频对应的帧特征向量组，得到视频组的帧特征向量矩阵，如图6所示。

步骤104，根据视频组的帧特征向量矩阵得到标签的最大特征向量，标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于标签；

由于视频组的帧特征向量矩阵能够代表该标签的视频的核心特征，因此根据视频组的帧特征向量矩阵能够提取该标签的最大特征向量。该标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于标签，比如，该最大特征向量与单个视频帧的帧特征向量相乘，乘积大于0时，表征该视频帧属于该标签；乘积等于0时，表征该视频帧不属于该标签。

将视频组的帧特征向量进行主成分分析(Principal Component Analysis，PCA)计算得到主成分分析的协方差矩阵中的最大特征向量，作为标签的最大特征向量；其中，标签的最大特征向量为一维向量。

对每个标签均进行类似处理，能够得到每个标签的最大特征向量V_eigen。将所有标签的最大特征向量V_eigen进行组合，得到特征矩阵E_eigen，如图6所示。

步骤105，根据特征提取网络和每种标签的最大特征向量，得到视频分类模型。

将特征提取网络和特征矩阵E_eigen进行组合，得到视频分类模型，如图7所示。

综上所述，本实施例提供的方法，通过采用视频数据集对分类模型进行训练，得到训练后的分类模型；将训练后的分类模型中的帧特征提取层、特征增强层和每个标签的最大特征向量进行组合，得到视频分类模型。由于分类模型的训练依然采用的是传统的数据集，每个标签的最大特征向量也是利用帧特征提取层和特征增强层的特征提取能力所构建的，因此大大减少了对标签的人工标注需求，降低了训练的成本。

本实施例提供的方法，还通过将属于同一个标签的视频组的帧特征向量进行主成分分析，能够得到主成分分析的协方差矩阵中的最大特征向量，将该最大特征向量作为该标签的最大特征向量，标签的最大特征向量能够用于预测单个视频帧的帧特征向量是否属于该标签。也即，利用标签的最大特征向量对视频中的每个视频帧进行预测，能够标记出标签出现时的开始视频帧和标签消失时的结束视频帧。

在一个可选的实施例中，上述特征增强层为NetVLAD网络。如图8所述，该NetVLAD层包括：卷积计算模块81、Soft-max模块82、VLAD池化模块83、内部正则化模块84和L2正则化模块85。

在上述步骤102中，NetVLAD层的输入为视频中的所有视频帧的帧特征向量，输出为Len(frames)*D的特征向量。Len(frames)是视频中的所有视频帧的帧特征向量的数量，D为预设维度。此时，Len(frames)*D的特征向量是用于表示视频整体特征的视频级特征向量。

在上述步骤103a中，NetVLAD层的输入为视频中的单个视频帧的帧特征向量，输出为1*D的特征向量。该1*D的特征向量是用于表示视频中的单个视频帧的帧特征向量。

图9示出了本申请一个示例性实施例提供的视频分类方法的流程图。该方法可以由计算机设备来实现。该方法包括：

步骤901，获取视频分类模型；

视频分类模型包括特征提取网络和每种标签的最大特征向量。参考图8，特征提取网络包括：特征提取层302和特征增强层304。标签可以为多个，多个标签的最大特征向量组成特征矩阵E_eigen。

在一个示例中，帧特征提取层302为InceptionNet或MobileNet；特征增强层304为NetVLAD层。

步骤902，根据特征提取网络对视频中的视频帧进行特征提取，得到视频帧的帧特征向量；

当存在待分析的视频时，根据特征提取网络对视频中的每个视频帧进行特征提取，得到每个视频帧的帧特征向量；或者，根据特征提取网络按照预定频率(比如1HZ)对视频中的抽样视频帧进行特征提取，得到每个抽样视频帧的帧特征向量。

在一个示例中，本步骤包括如下2个步骤，如图10所示：

步骤902a，将视频中的视频帧输入至帧特征提取层进行特征提取，得到视频帧的二维卷积特征；

比如，将视频中的视频帧输入InceptionNet层中，得到InceptionNet V4形式的二维卷积特征。

步骤902b，将视频帧的二维卷积特征输入至特征增强层进行特征增强，得到视频帧的帧特征向量。

比如，将InceptionNet V4形式的二维卷积特征输入至NetVLAD层，得到1*D的特征向量。该1*D的特征向量是用于表示视频中的单个视频帧的帧特征向量。

步骤903，根据视频帧的帧特征向量和每种标签的最大特征向量的乘积，确定视频帧所属的目标标签；

目标标签是标签中的一个或多个。也即，一个视频帧可以属于一个目标标签，也可以属于多个目标标签，还可以不属于任何标签。

在一个示例中，本步骤包括如下2个步骤，如图11所示：

步骤903a，对于每种标签中的第i种标签，计算视频帧的帧特征向量和第i种标签的最大特征向量的乘积；

其中，i为不大于标签总数量的整数。

步骤903b，当乘积大于0时，将第i种标签确定为视频帧所属的目标标签。

反之，当乘积等于0时，确定该视频帧不属于第i种标签。

步骤904，对于每种目标标签，根据视频中属于目标标签的连续多个视频帧，标记出目标标签在视频中的开始位置和结束位置。

当视频中存在属于目标标签的连续多个视频帧时，将连续多个视频帧中的第一个视频帧的时间戳确定为开始位置(比如第3帧)，将连续多个视频帧中的最后一个视频帧的时间戳确定为结束位置(比如第k-1帧)，如图12所示。

综上所述，本实施例提供的方法，通过在视频分类模型中提供标签对应的最大特征向量，根据该最大特征向量来预测视频中的每个视频帧是否属于该标签。当视频中存在属于该标签的连续多个视频帧时，根据连续多个视频帧在视频中的位置，输出该目标标签在视频中的开始位置和结束位置。由于标签对应的最大特征向量是通过传统的数据集训练得到的，不依赖于大量精准标注有标签的开始位置和结束位置的数据集，也能实现视频分类模型输出标签出现位置的功能。

以下为本申请实施例的装置实施例，对于装置实施例中未详细阐述的细节，可以参考方法实施例中的相应描述。

图13示出了本申请一个示例性实施例提供的视频分类装置的框图。该装置包括：获取模块1320、提取模块1340、确定模块1360和输出模块1380。

获取模块1320，用于获取视频分类模型，所述视频分类模型包括特征提取网络和每种标签的最大特征向量；

提取模块1340，用于根据所述特征提取网络对所述视频中的视频帧进行特征提取，得到所述视频帧的帧特征向量；

确定模块1360，用于根据所述视频帧的帧特征向量和所述每种标签的最大特征向量的乘积，确定所述视频帧所属的目标标签，所述目标标签是所述标签中的一个或多个；

输出模块1380，用于对于每种所述目标标签，根据所述视频中属于所述目标标签的连续多个视频帧，输出所述目标标签在所述视频中的开始位置和结束位置。

在一个可选的实施例中，所述特征提取网络包括：帧特征提取层和特征增强层；

所述提取模块1340，用于将所述视频中的视频帧输入至所述帧特征提取层进行特征提取，得到所述视频帧的二维卷积特征；将所述视频帧的二维卷积特征输入至所述特征增强层进行特征增强，得到所述视频帧的帧特征向量。

在一个可选的实施例中，所述帧特征提取层为卷积神经网络InceptionNet或移动端轻量级网络MobileNet；所述特征增强层为局部聚合网络NetVLAD层。

在一个可选的实施例中，所述确定模块1360，用于对于每种标签中的第i种标签，计算所述视频帧的帧特征向量和所述第i种标签的最大特征向量的乘积，i为不大于标签总数量的整数；当所述乘积大于0时，将所述第i种标签确定为所述视频帧所属的目标标签。

图14示出了本申请一个示例性实施例提供的模型训练装置的框图。该装置包括：

训练模块1410，用于采用视频数据集对分类模型进行训练，得到训练后的分类模型，所述训练后的分类模型包括：帧特征提取层、特征增强层和分类层；

抽取模块1430，用于根据所述帧特征提取层和所述特征增强层，得到特征提取网络；

矩阵模块1450，用于根据所述特征提取网络提取属于同一种标签的视频组中的视频帧的帧特征向量，得到所述视频组的帧特征向量矩阵；

向量模块1470，用于根据所述视频组的帧特征向量矩阵得到所述标签的最大特征向量，所述标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于所述标签；

构建模块1490，用于根据所述特征提取网络和每种标签的最大特征向量，得到所述视频分类模型。

在一个可选的实施例中，所述向量模块1470，用于将所述视频组的帧特征向量进行主成分分析，计算得到所述主成分分析的协方差矩阵中的最大特征向量，作为所述标签的最大特征向量；

其中，所述标签的最大特征向量为一维向量。

在一个可选的实施例中，所述矩阵模块1450，用于根据所述特征提取网络对属于同一种标签的视频组中n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组，第i个视频对应的帧特征向量组中对应有k_i个帧特征向量；根据所述n个视频对应的帧特征向量组，得到所述视频组的帧特征向量矩阵。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。需要说明的是，该服务器可以是如下图15所提供的服务器。

请参考图15，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：服务器1500包括中央处理单元(CPU)1501、包括随机存取存储器(RAM)1502和只读存储器(ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。服务器1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1510的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为服务器1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1501执行，一个或多个程序包含用于实现上述视频分类模型的训练方法或视频分类方法的指令，中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。

根据本申请的各种实施例，服务器1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的视频分类模型的训练方法或视频分类方法。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述视频分类模型的训练方法或视频分类方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述视频分类模型的训练方法或视频分类方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取视频分类模型，所述视频分类模型包括特征提取网络和每种标签的最大特征向量，所述最大特征向量是将帧特征向量矩阵进行主成分分析，计算得到所述主成分分析的协方差矩阵中的最大特征向量，所述帧特征向量矩阵是属于同一种标签的视频组中的视频帧的特征向量，所述最大特征向量用于指示属于同一种标签的视频组的核心特征，所述最大特征向量用于指示所述视频中的视频帧是否属于所述最大特征向量对应的标签，所述帧特征向量矩阵是根据n个视频对应的帧特征向量组得到的，对所述同一种标签的视频组中包括的所述n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组；

对于每种标签中的第i种标签，根据第i种标签的最大特征向量对视频中的视频帧逐个进行预测，计算所述视频帧的帧特征向量和所述第i种标签的最大特征向量的乘积，i为不大于标签总数量的整数；

当所述乘积大于0时，将所述第i种标签确定为所述视频帧所属的目标标签，所述目标标签是所述标签中的一个或多个；

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括：帧特征提取层和特征增强层；

所述根据所述特征提取网络对所述视频中的视频帧进行特征提取，得到所述视频帧的帧特征向量，包括：

将所述视频中的视频帧输入至所述帧特征提取层进行特征提取，得到所述视频帧的二维卷积特征；

将所述视频帧的二维卷积特征输入至所述特征增强层进行特征增强，得到所述视频帧的帧特征向量。

3.根据权利要求2所述的方法，其特征在于，

所述帧特征提取层为卷积神经网络InceptionNet或移动端轻量级网络MobileNet；

所述特征增强层为局部聚合网络NetVLAD层。

4.一种模型训练方法，其特征在于，所述方法包括：

根据所述特征提取网络对属于同一种标签的视频组中n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组，第i个视频对应的帧特征向量组中对应有k_i个帧特征向量；

根据所述n个视频对应的帧特征向量组，得到所述视频组的帧特征向量矩阵；

将所述视频组的帧特征向量矩阵进行主成分分析，计算得到所述主成分分析的协方差矩阵中的最大特征向量，作为所述标签的最大特征向量，所述标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于所述标签，所述最大特征向量用于指示属于同一种标签的视频组的核心特征，所述最大特征向量用于指示所述视频中的视频帧是否属于所述最大特征向量对应的标签；

根据所述特征提取网络和每种标签的最大特征向量，得到视频分类模型，第i种标签的最大特征向量用于对视频中的视频帧逐个进行预测，i为不大于标签总数量的整数。

5.根据权利要求4所述的方法，其特征在于，所述帧特征提取层为卷积神经网络InceptionNet或移动端轻量级网络MobileNet；

所述特征增强层为局部聚合网络NetVLAD层。

6.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取视频分类模型，所述视频分类模型包括特征提取网络和每种标签的最大特征向量，所述最大特征向量是将帧特征向量矩阵进行主成分分析，计算得到所述主成分分析的协方差矩阵中的最大特征向量，所述帧特征向量矩阵是属于同一种标签的视频组中的视频帧的特征向量，所述最大特征向量用于指示属于同一种标签的视频组的核心特征，所述最大特征向量用于指示所述视频中的视频帧是否属于所述最大特征向量对应的标签，所述帧特征向量矩阵是根据n个视频对应的帧特征向量组得到的，对所述同一种标签的视频组中包括的所述n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组；

确定模块，用于对于每种标签中的第i种标签，根据第i种标签的最大特征向量对视频中的视频帧逐个进行预测，计算所述视频帧的帧特征向量和所述第i种标签的最大特征向量的乘积，i为不大于标签总数量的整数；

7.一种模型训练装置，其特征在于，所述装置包括：

矩阵模块，用于根据所述特征提取网络对属于同一种标签的视频组中n个视频的视频帧进行特征提取，得到每个视频对应的帧特征向量组，第i个视频对应的帧特征向量组中对应有k_i个帧特征向量；

向量模块，用于将所述视频组的帧特征向量矩阵进行主成分分析，计算得到所述主成分分析的协方差矩阵中的最大特征向量，作为所述标签的最大特征向量，所述标签的最大特征向量用于预测单个视频帧的帧特征向量是否属于所述标签，所述最大特征向量用于指示属于同一种标签的视频组的核心特征，所述最大特征向量用于指示所述视频中的视频帧是否属于所述最大特征向量对应的标签；

构建模块，用于根据所述特征提取网络和每种标签的最大特征向量，得到视频分类模型，第i种标签的最大特征向量用于对视频中的视频帧逐个进行预测，i为不大于标签总数量的整数。

8.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至3任一所述的视频分类方法，或，如上权利要求4或5所述的模型训练方法。

9.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上权利要求1至3任一所述的视频分类方法，或，如上权利要求4或5所述的模型训练方法。