CN110751224B

CN110751224B - 视频分类模型的训练方法、视频分类方法、装置及设备

Info

Publication number: CN110751224B
Application number: CN201911026094.9A
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-08-05
Anticipated expiration: 2039-10-25
Also published as: CN110751224A

Abstract

本申请公开了一种视频分类模型的训练方法、分类方法、装置及设备，所述方法包括：获取长视频数据集；对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到所述视频的至少两个视频片段；将所述视频的至少两个视频片段和所述视频的标签进行组合，得到短视频数据集；根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型。本申请实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集，通过该短视频数据集训练得到的视频分类模型，对于短视频具有较好的标签分类能力，还能够减少训练和预测时的特征提取计算量。

Description

视频分类模型的训练方法、视频分类方法、装置及设备

技术领域

本申请涉及计算机视觉领域，特别涉及一种视频分类模型的训练方法、视频分类方法、装置及设备。

背景技术

自动理解视频内容已经成为许多应用场景的关键技术，如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。

相关技术中提供有视频标签数据集(简称数据集)，该数据集包括视频和标签之间的对应关系。数据集中的视频一般为时长几分钟的“长视频”。采用该视频标签数据集能够训练得到深度学习模型。在视频分类时，先通过卷积神经网络中的三维卷积对视频进行特征提取，得到视频的视频级特征；将视频的视频级特征输入至训练好的深度学习模型中，得到该视频对应的标签。

由于目前的短视频分享应用的流行，视频标签分类的一个研究主题是针对时长为15秒以后的“短视频”，也即视频片段。由于上述三维卷积方式的计算量较大而且数据集中的视频也较长，因此上述深度学习模型对视频片段的分类能力较差。

发明内容

本申请实施例提供了一种视频分类模型的训练方法、视频分类方法、装置及设备，可以解决相关技术中的三维卷积方式的计算量较大而且数据集中的视频也较长，因此上述深度学习模型对视频片段的分类能力较差的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种视频分类模型的训练方法，所述方法包括：

获取长视频数据集，所述长视频数据集包括视频和标签之间的对应关系，所述视频的视频长度大于第一时长；

对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到所述视频的至少两个视频片段，所述视频片段的视频长度小于第二时长，所述第二时长不大于所述第一时长；

将所述视频的至少两个视频片段和所述视频的标签进行组合，得到短视频数据集；

根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型。

根据本申请的一个方面，提供了一种视频分类方法，所述方法包括：

获取待分类的视频，所述视频的长度小于第二时长；

对所述视频进行时间维度的下采样，将采样得到的抽样视频帧；

对所述视频的所述抽样视频帧进行特征提取，得到所述视频的特征向量；

调用视频分类模型对所述特征向量进行预测，得到所述视频的标签；所述视频分类模型是根据短视频数据集训练得到的；

其中，所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段得到的，所述视频片段的长度小于第二时长，所述视频的长度大于第一时长，所述第二时长不大于所述第一时长。

根据本申请的一个方面，提供了一种视频分类模型的训练装置，所述装置包括：

获取模块，用于获取长视频数据集，所述长视频数据集包括视频和标签之间的对应关系，所述视频的视频长度大于第一时长；

分段模块，用于对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到所述视频的至少两个视频片段，所述视频片段的视频长度小于第二时长，所述第二时长不大于所述第一时长；

组合模块，用于将所述视频的至少两个视频片段和所述视频的标签进行组合，得到短视频数据集；

训练模块，用于根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型。

根据本申请的一个方面，提供了一种视频分类装置，所述装置包括：

获取模块，用于获取待分类的视频，所述视频的长度小于第二时长；

下采样模块，用于对所述视频进行时间维度的下采样，将采样得到的抽样视频帧；

提取模块，用于对所述视频的所述抽样视频帧进行特征提取，得到所述视频的特征向量；

预测模块，用于调用视频分类模型对所述特征向量进行预测，得到所述视频的标签；所述视频分类模型是根据短视频数据集训练得到的；

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频分类模型的训练方法，或，如上所述的视频分类方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的视频分类模型的训练方法，或，如上所述的视频分类方法。

本申请实施例至少存在如下有益效果:

通过获取长视频数据集，对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到视频的至少两个视频片段；将视频的至少两个视频片段和视频的标签进行组合，得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集，通过该短视频数据集训练得到的视频分类模型，对于短视频具有较好的标签分类能力，还能够减少训练和预测时的特征提取计算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示意性实施例提供的视频分类模型的训练方法的流程图；

图2是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图3是本申请另一个示意性实施例提供的视频分类模型的训练方法的流程图；

图4是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图；

图5是本申请另一个示意性实施例提供的视频分类方法的流程图；

图6是本申请另一个示意性实施例提供的视频分类方法的原理示意图；

图7是本申请另一个示意性实施例提供的视频分类模型的训练装置的框图；

图8是本申请另一个示意性实施例提供的视频分类模型的框图；

图9是本申请另一个示意性实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例提供的若干个技术名词进行简介：

Youtube-8M视频理解挑战赛：是由Kaggle和谷歌赞助的视频理解挑战赛，要求采用1G以下的机器学习模型来进行视频标签分类任务。每年举办一次，已经举办两次，2019年是第三次。

Youtube-8M数据集：一个包含610万个视频和3862个类(或标签)的大型标记数据集。该数据集中将原始视频编码为一系列特征向量，包括视觉特征和音频特征。

-帧级数据集

帧级数据集是以“帧”为单位进行特征采集所得到的数据。每个帧对应有各自的标签。

-视频级数据集

将帧级数据集中与单个视频对应的特征向量序列进行平均后，得到视频级数据集中与该视频对应的特征向量。每个视频对应有各自的标签。

上述数据集中的标签是由采用机器自动化标注和人工手动标注两种策略来生成的，导致准确度较低。根据Youtube-8M数据集的技术报告，帧级数据集的标签精度和召回率仅为78.8％和14.5％。

图1示出了本申请一个示例性实施例提供的视频分类模型的训练方法的流程图。该方法可以应用于计算机设备中。该方法包括：

步骤102，获取长视频数据集；

长视频数据集包括：视频和标签之间的对应关系。长标签数据集中的视频的长度大于第一时长，比如20秒，通常为几分钟。长标签数据集中的标签是硬标签。在一个示例中，长标签数据集中的视频数量为第一数量，第一数量较大，比如几百万个视频、几千万个视频或上亿个视频。该长标签数据集可以是Youtube-8M数据集。

长标签数据集中的全部或部分硬标签是机器标注得到的，比如通过视频标题、视频评论、用户在观看视频时手动给出的分类等。

步骤104，对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到视频的至少两个视频片段；

视频片段的视频长度小于第二时长，第二时长不大于第一时长。比如，第二时长为15秒。

对于长视频数据集中的每个视频，按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧，即为每24帧采样一个视频帧作为抽样视频帧。将采样得到的抽样视频帧进行等分或不等分分段，得到视频的至少两个视频片段，如图2所示。

步骤106，将视频的至少两个视频片段和视频的标签进行组合，得到短视频数据集；

将视频的全部或部分视频片段和该视频的标签进行组合，得到短视频数据集。该视频的标签是该视频在长视频数据集中的标签。

步骤108，根据短视频数据集对分类模型进行训练，得到视频分类模型。

对于短标签数据集中的每个视频片段，对视频片段提取特征向量，该特征向量包括视觉特征和听觉特征中的至少一种。将视频片段的特征向量输入至分类模型中进行预测，得到视频片段的预测标签。根据视频片段的预测标签和标签之间的误差，采用误差反向传播算法训练得到视频分类模型。

综上所述，本实施例提供的方法，通过获取长视频数据集，对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到视频的至少两个视频片段；将视频的至少两个视频片段和视频的标签进行组合，得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集，通过该短视频数据集训练得到的视频分类模型，对于短视频具有较好的标签分类能力，还能够减少训练和预测时的特征提取计算量。

图3示出了本申请另一个示例性实施例提供的视频分类模型的训练方法的流程图。该方法可以应用于计算机设备中。该方法包括：

步骤301，获取长视频数据集；

长视频数据集包括：视频和标签之间的对应关系。长标签数据集中的视频的长度大于第一时长，比如30秒，通常为几分钟。长标签数据集中的标签是硬标签。在一个示例中，长标签数据集中的视频数量为第一数量，第一数量较大，比如几百万个视频、几千万个视频或上亿个视频。该长标签数据集可以是Youtube-8M数据集。

步骤302，对长视频数据集中的视频按照预设频率进行时间维度的下采样，得到视频的抽样视频帧序列；

对于长视频数据集中的每个视频，按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧，即为每24帧采样一个视频帧作为抽样视频帧。若视频中的帧率为每秒60帧，即为每60帧采样一个视频帧作为抽样视频帧。

步骤303，对视频的抽样视频帧序列进行等分分段，得到视频的至少两个视频片段；

在一个示例中，对视频的抽样视频帧序列按照固定数量M进行等分分段，得到视频的M个视频片段，M为大于1的整数。

在一个示例中，在随机数区间(比如5-10)中为视频随机选择一个随机数作为分组数量；按照分组数量对视频的抽样视频帧序列进行等分分段，得到视频的至少两个视频片段。

步骤304，将视频的至少两个视频片段和视频的标签进行组合，得到短视频数据集；

比如，对每个视频随机选择2个视频片段，与该视频在长视频数据集中的标签进行组合，得到短视频数据集。

步骤305，对于短视频数据集中的每个视频片段，采用二维卷积网络进行特征提取，得到视频片段对应的二维卷积特征；

采用二维卷积网络对视频片段的视觉特征和/或音频特征进行特征提取，得到视频片段对应的二维卷积特征。

可选地，对视频片段提取特征向量，包括：采用二维的第一神经网络对视频帧的帧特征向量进行提取，采用二维的第二神经网络对多个视频帧的帧特征向量进行特征融合，得到视频的特征向量。其中，第一神经网络可以采用谷歌公司提出的InceptionNet或移动端轻量级网络MobileNet；第二神经网络可以采用NetVLAD网络。InceptionNet的论文可参考《Inception-v4,Inception-ResNet and the Impact of Residual Connections onLearning》，NetVLAD网络的论文可参考《NeXtVLAD:An Efficient Neural Network toAggregate Frame-level Features for Large-scale Video Classification》。

步骤306，将视频片段对应的二维卷积特征输入至分类模型得到第一预测标签；

步骤307，根据第一预测标签和视频片段对应的标签之间的误差，根据误差反向传播算法对分类模型进行训练，得到视频分类模型。

在一个示例中，训练视频分类模型时的误差函数采用了下式所定义的交叉熵损失，其中，n代表类别数，y_i、p_i分别代表标签向量和视频分类模型输出的第一预测标签向量的第i位。

在某些实施例中，长视频数据集的标签精度较差。可选地，本实施例还获取人工标注数据集，采用标签精度较高的人工标注数据集对上述步骤训练得到视频分类模型(可视为预训练模型)进行微调训练，以提高视频分类模型的分类准确度，如图4所示。本实施例还可选包括如下步骤：

步骤308，获取人工标注数据集，人工标注数据集包括样本视频片段和人工标注标签之间的对应关系；

样本视频片段可以是长视频数据集中的视频进行分段后的视频分段的子集，也可以是独立于长视频数据集进行额外采集的视频片段。

示例性的，人工标注的方式包括：针对样本视频片段，计算机设备向标注员询问该视频片段是否存在某一个标签(其它没有被询问的标签无需标注)，这样使得标注难度以及错标、漏标概率不会随标签类别的增加而增加。

若样本视频片段是长视频数据集中的视频进行分段后的视频分段的子集。为了增加人工标注正样本的占比，还可以在该视频片段在长视频数据集中所属的标签中选择要询问的标签，因为每个视频在长视频数据集中所属的标签数量可能不止一个。人工标签训练集的样本数量较少，但标签精度较高。比如人工标注数据集中的样本数量为长视频数据集中的样本数量的10％左右。

步骤309，对于人工标注数据集中的每个样本视频片段，采用二维卷积网络进行特征提取，得到样本视频片段对应的二维卷积特征；

可选地，对视频片段提取特征向量，包括：采用二维的第一神经网络对视频帧的帧特征向量进行提取，采用二维的第二神经网络对多个视频帧的帧特征向量进行特征融合，得到视频的特征向量。其中，第一神经网络可以采用InceptionNet或移动端轻量级网络MobileNet；第二神经网络可以采用NetVLAD网络。

步骤310，将样本视频片段对应的二维卷积特征输入至视频分类模型，得到第二预测标签；

步骤311，根据第二预测标签和样本视频片段对应的人工标注标签之间的误差，根据误差反向传播算法对视频分类模型进行微调训练，得到最终的视频分类模型。

在一个示例中，微调训练过程中，对特征提取网络(2D卷积)的学习率设置为0。

综上所述，本实施例提供的方法，通过获取长视频数据集，对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到视频的至少两个视频片段；将视频的至少两个视频片段和视频的标签进行组合，得到短视频数据集。实现了将长视频数据集通过“下采样”和“分段”的方式构建得到包含大量视频片段的短视频数据集，通过该短视频数据集训练得到的视频分类模型，对于短视频具有较好的标签分类能力，下采样方式不仅能够缩短视频的长度，还能够减少训练和预测时的特征提取计算量。

本实施例提供的方法，还通过二维卷积网络对视频片段进行特征提取，仅需要提取视频片段的二维卷积特征，无需提取视频片段的三维卷积特征，因此进一步减少训练和预测时的特征提取计算量。

本实施例提供的方法，还通过基于“海量但不准确的长标签数据集”和“少量但准确的人工标准的人工标注数据集”进行两段式训练，能够尽可能减少对人工标注工作的依赖，尽可能高地提高视频分类模型的分类准确度。

图5示出了本申请一个示例性实施例提供的视频分类方法的流程图，该方法可以应用于计算机设备中，所述方法包括：

步骤501，获取待分类的视频，视频的长度小于第二时长；

该视频可以为短视频或从长视频截取的视频片段。比如，第二时长为15秒。本申请实施例不限定第二时长的具体数值，第二时长还可以为10秒或30秒等其它数值。

步骤502，对视频进行时间维度的下采样，将采样得到的抽样视频帧；

对视频按照预设频率进行时间维度的下采样，得到视频的抽样视频帧。

示例性的，对视频按照1HZ进行时间维度的下采样。若视频中的帧率为每秒24帧，即为每24帧采样一个视频帧作为抽样视频帧。若视频中的帧率为每秒60帧，即为每60帧采样一个视频帧作为抽样视频帧。

步骤503，对视频的抽样视频帧进行特征提取，得到视频的特征向量；

可选地，对视频提取特征向量，包括：采用二维的第一神经网络对视频中抽样视频帧的帧特征向量进行提取，采用二维的第二神经网络对多个抽样视频帧的帧特征向量进行特征融合，得到视频的特征向量。其中，第一神经网络可以采用InceptionNet或移动端轻量级网络MobileNet；第二神经网络可以采用NetVLAD网络。

步骤504，调用视频分类模型对特征向量进行预测，得到视频的标签。

视频分类模型是根据短视频数据集训练得到的，比如上述各个方法实施例训练得到的分类模型。其中，短视频数据集中的视频片段是对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段得到的，视频片段的长度小于第二时长，视频的长度大于第一时长，第二时长不大于第一时长。

参考图6，计算机设备调用视频分类模型对特征向量进行预测，得到视频属于每种标签的概率，也称概率分布向量。概率分布向量可以表示为P＝{p1,p2,…,pn}，其中，pi表示输入视频输入第i类的概率，n为类别总数量。

当视频属于第i种标签的概率大于或等于阈值时，将第i种标签确定为视频的标签；当视频属于第i种标签的概率小于阈值时，将第i种标签确定为视频的标签。

在一个示例中，对概率分布向量P按下式进行二值化。

在一个示例中，阈值threshold设为0.5。

在二值化结果中，如果P的第i位等于1，表明输入视频属于第i类，否则不属于该类。按照该原则遍历二值化后的概率分布向量P，输出所有等于1的位置所对应的标签类别。

综上所述，本实施例提供的方法，由于视频分类模型是通过短视频数据集训练得到的，因此对于短视频具有较好的标签分类能力。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，请参考上述方法实施例。

图7是本申请的一个示例性实施例提供的视频分类模型的训练装置的框图，所述装置包括：

获取模块720，用于获取长视频数据集，所述长视频数据集包括视频和标签之间的对应关系，所述视频的视频长度大于第一时长；

分段模块740，用于对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段，得到所述视频的至少两个视频片段，所述视频片段的视频长度小于第二时长，所述第二时长不大于所述第一时长；

组合模块760，用于将所述视频的至少两个视频片段和所述视频的标签进行组合，得到短视频数据集；

训练模块780，用于根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型。

在一个可选的实施例中，所述分段模块740，用于对所述长视频数据集中的视频按照预设频率进行时间维度的下采样，得到所述视频的抽样视频帧序列；对所述视频的抽样视频帧序列进行等分分段，得到所述视频的至少两个视频片段。

在一个可选的实施例中，所述分段模块740，用于在随机数区间中为所述视频随机选择一个随机数作为分组数量；按照所述分组数量对所述视频的抽样视频帧序列进行等分分段，得到所述视频的至少两个视频片段。

在一个可选的实施例中，所述训练模块780，用于对于所述短视频数据集中的每个视频片段，采用二维卷积网络进行特征提取，得到所述视频片段对应的二维卷积特征；将所述视频片段对应的二维卷积特征输入至分类模型得到第一预测标签；根据所述第一预测标签和所述视频片段对应的标签之间的误差，根据误差反向传播算法对所述分类模型进行训练，得到所述视频分类模型。

在一个可选的实施例中，所述装置还包括：微调训练模块790，

所述微调训练模块790，用于获取人工标注数据集，所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系；对于所述人工标注数据集中的每个样本视频片段，采用二维卷积网络进行特征提取，得到所述样本视频片段对应的二维卷积特征；将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型，得到第二预测标签；根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差，根据误差反向传播算法对所述视频分类模型进行微调训练，得到最终的所述视频分类模型。

图8是本申请的一个示例性实施例提供的视频分类装置的框图，所述装置包括：

获取模块820，用于获取待分类的视频，所述视频的长度小于第二时长；

下采样模块840，用于对所述视频进行时间维度的下采样，将采样得到的抽样视频帧；

提取模块860，用于对所述视频的所述抽样视频帧进行特征提取，得到所述视频的特征向量；

预测模块880，用于调用视频分类模型对所述特征向量进行预测，得到所述视频的标签；所述视频分类模型是根据短视频数据集训练得到的；

在一个可选的实施例中，下采样模块840，用于对所述视频按照预设频率进行时间维度的下采样，得到所述视频的抽样视频帧。

在一个可选的实施例中，预测模块880，用于调用所述视频分类模型对所述特征向量进行预测，得到所述视频属于每种标签的概率；当所述视频属于第i种标签的概率大于阈值时，将所述第i种标签确定为所述视频的标签。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。需要说明的是，该计算机设备可以是如下图9所提供的计算机设备。

请参考图9，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，大容量存储设备907可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元901执行，一个或多个程序包含用于实现上述视频分类模型的训练方法或视频分类方法的指令，中央处理单元901执行该一个或多个程序实现上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。

根据本申请的各种实施例，计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的视频分类模型的训练方法或视频分类方法。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述视频分类模型的训练方法或视频分类方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述视频分类模型的训练方法或视频分类方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的视频分类模型的训练方法或视频分类方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类模型的训练方法，其特征在于，所述方法包括：

根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型；

获取人工标注数据集，所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系；

对于所述人工标注数据集中的每个样本视频片段，采用二维卷积网络进行特征提取，得到所述样本视频片段对应的二维卷积特征；

将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型，得到第二预测标签；

根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差，根据误差反向传播算法对所述视频分类模型进行微调训练，得到最终的所述视频分类模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述长视频数据集中的视频进行时间维度的下采样，将采样得到的视频帧进行分段，得到所述视频的至少两个视频片段，包括：

对所述长视频数据集中的视频按照预设频率进行时间维度的下采样，得到所述视频的抽样视频帧序列；

对所述视频的抽样视频帧序列进行等分分段，得到所述视频的至少两个视频片段。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频的抽样视频帧序列进行等分分段，得到所述视频的至少两个视频片段，包括：

在随机数区间中为所述长视频数据集中的视频随机选择一个随机数作为分组数量；

按照所述分组数量对所述视频的抽样视频帧序列进行等分分段，得到所述视频的至少两个视频片段。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型，包括：

对于所述短视频数据集中的每个视频片段，采用二维卷积网络进行特征提取，得到所述视频片段对应的二维卷积特征；

将所述视频片段对应的二维卷积特征输入至分类模型得到第一预测标签；

根据所述第一预测标签和所述视频片段对应的标签之间的误差，根据误差反向传播算法对所述分类模型进行训练，得到所述视频分类模型。

5.一种视频分类方法，其特征在于，所述方法包括：

获取待分类的短视频，所述短视频的长度小于第二时长；

对所述短视频进行时间维度的下采样，得到短视频的抽样视频帧；

对所述短视频的抽样视频帧进行特征提取，得到所述短视频的特征向量；

调用视频分类模型对所述特征向量进行预测，得到所述短视频的标签；所述视频分类模型是根据短视频数据集训练得到的；

其中，所述短视频数据集中的视频片段是对长视频数据集中的视频进行时间维度的下采样，将采样得到的抽样视频帧进行分段得到的，所述视频片段的长度小于第二时长，所述长视频数据集中的视频的长度大于第一时长，所述第二时长不大于所述第一时长；

其中，所述视频分类模型的训练方法包括：获取人工标注数据集，所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系；对于所述人工标注数据集中的每个样本视频片段，采用二维卷积网络进行特征提取，得到所述样本视频片段对应的二维卷积特征；将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型，得到第二预测标签；根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差，根据误差反向传播算法对所述视频分类模型进行微调训练，得到最终的所述视频分类模型。

6.根据权利要求5所述的方法，其特征在于，所述对所述短视频进行时间维度的下采样，得到抽样视频帧，包括：

对所述短视频按照预设频率进行时间维度的下采样，得到所述短视频的抽样视频帧。

7.根据权利要求5所述的方法，其特征在于，所述调用视频分类模型对所述特征向量进行预测，得到所述短视频的标签，包括：

调用所述视频分类模型对所述特征向量进行预测，得到所述短视频属于每种标签的概率；

当所述短视频属于第i种标签的概率大于阈值时，将所述第i种标签确定为所述短视频的标签。

8.一种视频分类模型的训练装置，其特征在于，所述装置包括：

训练模块，用于根据所述短视频数据集对分类模型进行训练，得到所述视频分类模型；

所述训练模块，还用于获取人工标注数据集，所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系；对于所述人工标注数据集中的每个样本视频片段，采用二维卷积网络进行特征提取，得到所述样本视频片段对应的二维卷积特征；将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型，得到第二预测标签；根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差，根据误差反向传播算法对所述视频分类模型进行微调训练，得到最终的所述视频分类模型。

9.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的短视频，所述短视频的长度小于第二时长；

下采样模块，用于对所述短视频进行时间维度的下采样，得到所述短视频的抽样视频帧；

提取模块，用于对所述短视频的抽样视频帧进行特征提取，得到所述短视频的特征向量；

预测模块，用于调用视频分类模型对所述特征向量进行预测，得到所述短视频的标签；所述视频分类模型是根据短视频数据集训练得到的；

10.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至4任一所述的视频分类模型的训练方法，或，如上权利要求5至7任一所述的视频分类方法。

11.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上权利要求1至4任一所述的视频分类模型的训练方法，或，如上权利要求5至7任一所述的视频分类方法。