CN110222649B

CN110222649B - 视频分类方法、装置、电子设备及存储介质

Info

Publication number: CN110222649B
Application number: CN201910497450.9A
Authority: CN
Inventors: 张志伟; 刘畅; 刘鹏; 梁潇; 李宣平; 申世伟; 张超
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2020-12-18
Anticipated expiration: 2039-06-10
Also published as: CN110222649A

Abstract

本公开关于一种视频分类方法、装置、电子设备和存储介质。所述方法包括：对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率，从而确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率；根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量；根据待分类视频的特征向量，确定待分类视频的分类标签。不仅使用了预测标签的出现次数、预测标签的出现概率，还结合了出现概率的准确率来进行视频分类，分类的粒度更细，分类的结果更加准确。

Description

视频分类方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

近来，深度学习在图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的一个重要分支，由于其超强的拟合能力以及端到端的全局优化能力，对图像分类的精度比较高。而视频都是由图像帧组成的。因此，可以借助于CNN对图像分类的过程，实现对视频进行分类。

相关技术中，在通过CNN对视频进行分类时，普遍做法是：从待分类的视频中抽取N帧视频图像，通过CNN对每帧视频图像进行识别，得到每帧视频图像的预测标签。对于每种预测标签，根据每帧视频图像的预测标签，确定该预测标签的出现次数、出现概率的最大值和出现概率的平均值。当该预测标签出现概率的最大值大于预设的第一阈值，或者该预测标签出现概率的平均值大于预设的第二阈值且该预测标签出现次数大于预设的第三阈值时，则将该预测标签作为该视频的分类标签。

上述分类方法仅使用预测标签的出现概率的最大值或者平均值与出现次数来进行视频分类，分类的粒度较粗，分类结果不准确。

发明内容

本公开提供一种视频分类方法、装置、电子设备及存储介质，以至少解决相关技术中仅使用预测标签的出现概率的最大值或者平均值与出现次数来进行视频分类，分类的粒度较粗，分类结果不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法，包括对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率；

根据所述每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，所述第一标签集合中存储所述待分类视频的预测标签；

根据所述每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述待分类视频的特征向量；

根据所述待分类视频的特征向量，确定所述待分类视频的分类标签。

在一种可能的实现方式中，所述根据所述每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述待分类视频的特征向量，包括：

确定所述每种第一标签的出现次数和所述多帧第一视频图像的个数的比值，得到帧数比；

根据所述每种第一标签的出现概率，确定多个概率特征；

根据所述每种第一标签对应的预测准确率，确定多个准确率特征；

将所述帧数比、所述多个概率特征以及所述多个准确率特征组成所述待分类视频的特征向量。

在另一种可能的实现方式中，所述根据所述每种第一标签的出现概率，确定多个概率特征，包括：

从所述每种第一标签的出现概率中确定最大值、最小值和中位数；

根据所述每种第一标签的出现概率，确定出现概率的平均值和方差；

将所述最大值、所述最小值、所述中位数、所述平均值和所述方差组成所述多个概率特征。

在另一种可能的实现方式中，所述根据所述每种第一标签对应的预测准确率，确定多个准确率特征，包括：

根据所述每种第一标签的出现概率对应的预测准确率，确定预测准确率的平均值；

确定所述每种预测第一标签的出现概率中最大值对应的预测准确率、最小值对应的预测准确率以及平均值对应的预测准确率；

将所述预测准确率的平均值、所述最大值对应的预测准确率、所述最小值对应的预测准确率、所述平均值对应的预测准确率组成所述多个准确率特征。

在另一种可能的实现方式中，所述根据所述待分类视频的特征向量，确定所述待分类视频的分类标签，包括：

将所述待分类视频的特征向量输入视频分类模型中，输出所述待分类视频的分类标签。

在另一种可能的实现方式中，所述方法还包括：

获取样本视频和所述样本视频的样本标签；

对所述样本视频内的多帧第二视频图像进行预测，得到每帧第二视频图像的预测标签和预测标签的出现概率；

根据所述每帧第二视频图像的预测标签和预测标签的出现概率，确定第二标签集合中的每种第二标签的出现次数和出现概率对应的预测准确率，所述第二标签集合中存储所述样本视频的预测标签；

根据所述每种第二标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述样本视频的特征向量；

根据所述样本视频的特征向量和所述样本标签，训练所述视频分类模型。

在另一种可能的实现方式中，所述根据所述样本视频的特征向量和所述样本标签，训练所述视频分类模型，包括：

当所述预测标签和所述样本标签相同时，将监督数据设置为第一监督值，当所述预测标签和所述样本标签不同时，将监督数据设置为第二监督值；

根据所述监督数据，以所述样本视频的特征向量为训练数据，训练所述视频分类模型。

根据本公开实施例的第二方面，提供一种视频分类装置，包括：

第一预测单元，被配置为执行对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率；

第一确定单元，被配置为执行根据所述每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，所述第一标签集合中存储所述待分类视频的预测标签；

第二确定单元，被配置为执行根据所述每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述待分类视频的特征向量；

第三确定单元，被配置为执行根据所述待分类视频的特征向量，确定所述待分类视频的分类标签。

在一种可能的实现方式中，所述第二确定单元，还被配置为执行根据所述每种第一标签的出现次数和所述多帧第一视频图像的个数的比值，确定帧数比；根据所述每种第一标签的出现概率，确定多个概率特征；根据所述每种第一标签对应的预测准确率，确定多个准确率特征；将所述帧数比、所述多个概率特征以及所述多个准确率特征组成所述待分类视频的特征向量。

在另一种可能的实现方式中，所述第二确定单元，还被配置为执行从所述每种第一标签的出现概率中确定最大值、最小值和中位数；根据所述每种第一标签的出现概率，确定出现概率的平均值和方差；将所述最大值、所述最小值、所述中位数、所述平均值和所述方差组成所述多个概率特征。

在另一种可能的实现方式中，其特征在于，所述第二确定单元，还被配置为执行根据所述每种第一标签的出现概率对应的预测准确率，确定预测准确率的平均值；确定所述每种预测第一标签的出现概率中最大值对应的预测准确率、最小值对应的预测准确率以及平均值对应的预测准确率；将所述预测准确率的平均值、所述最大值对应的预测准确率、所述最小值对应的预测准确率、所述平均值对应的预测准确率组成所述多个准确率特征。

在另一种可能的实现方式中，所述第三确定单元，还被配置为执行将所述待分类视频的特征向量输入视频分类模型中，输出所述待分类视频的分类标签。

在另一种可能的实现方式中，所述装置还包括：

获取单元，被配置为执行获取样本视频和所述样本视频的样本标签；

第二预测单元，被配置为执行对所述样本视频内的多帧第二视频图像进行预测，得到每帧第二视频图像的预测标签和预测标签的出现概率；

第四确定单元，被配置为执行根据所述每帧第二视频图像的预测标签和预测标签的出现概率，确定第二标签集合中的每种第二标签的出现次数和出现概率对应的预测准确率，所述第二标签集合中存储所述样本视频的预测标签；

第五确定单元，被配置为执行根据所述每种第二标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述样本视频的特征向量；

训练单元，被配置为执行根据所述样本视频的特征向量和所述样本标签，训练所述视频分类模型。

在另一种可能的实现方式中，所述训练单元，还被配置为执行当所述预测标签和所述样本标签相同时，将监督数据设置为第一监督值，当所述预测标签和所述样本标签不同时，将监督数据设置为第二监督值；根据所述监督数据，以所述样本视频的特征向量为训练数据，训练所述视频分类模型。

根据本公开实施例的第三方面，提供一种电子设备，包括处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面所述的视频分类方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的视频分类方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的视频分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率，从而确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量，根据该特征向量，确定待分类视频的分类标签。不同于现有技术中仅通过预测标签出现概率的最大值或则和平均值与出现次数来进行粗粒度的分类，本公开不仅使用了预测标签的出现次数、预测标签的出现概率，还结合出现概率的预测准确率来进行视频分类，分类的粒度更细，分类的结果更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频分类方法的流程图。

图2是根据一示例性实施例示出的另一种视频分类方法的流程图。

图3是根据一示例性实施例示出的一种视频分类装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频分类方法的流程图，如图1所示，包括以下步骤：

在步骤101中，对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率。

在步骤102中，根据每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率。

第一标签集合中存储待分类视频的预测标签。

在步骤103中，根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量。

在步骤104中，根据待分类视频的特征向量，确定待分类视频的分类标签。

在本公开实施例中，通过对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率，从而确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量，根据该特征向量，确定待分类视频的分类标签。不同于现有技术中仅通过预测标签出现概率的最大值或则和平均值与出现次数来进行粗粒度的分类，本公开不仅使用了预测标签的出现次数、预测标签的出现概率，还结合出现概率的预测准确率来进行视频分类，分类的粒度更细，分类的结果更加准确。

图2是根据一示例性实施例示出的另一种视频分类方法的流程图，如图2所示，可以应用在电子设备中，包括以下步骤：

在步骤201中，电子设备对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率。

待分类视频为任一包括多帧视频图像的视频。在本公开实施例中，是借助于图像分类进行视频分类。相应的，本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)电子设备从待分类视频中提取多帧第一视频图像。

电子设备可以获取待分类视频，对该待分类视频进行视频帧的提取，得到多个视频帧，每个视频帧对应一个视频图像，得到多帧第一视频图图像。在本步骤中，电子设备可以通过以下任一方式从待分类视频中提取多帧第一视频图像：

电子设备从待分类视频中随机提取多帧第一视频图像；或者，电子设备从待分类视频中提取关键帧，得到多帧第一视频图像；或者，电子设备从待分类视频中每隔预设帧长提取一帧视频图像，得到多帧第一视频图像；或者，电子设备确定待分类视频中每帧视频图像的清晰度，根据每帧视频图像的清晰度，从待分类视频中提取图像清晰度超过第一预设阈值的视频图像，得到多帧第一视频图像；或者，电子设备确定待分类视频中每帧视频图像包括的信息量，根据每帧视频图像包括的信息量，从待分类视频中提取信息量超过第二预设阈值的视频图像，得到多帧第一视频图像。

在本公开实施例中，电子设备根据每帧视频图像的清晰度，从待分类视频中提取多帧第一视频图像，从而能够提取图像质量较好的图像，提高了后续分类的准确性。另外，电子设备根据每帧视频图像包括的信息量，从待分类视频中提取信息量较多的图像，从而图像中的信息能够反应待分类视频的类别，从而根据信息量较多的图像进行视频分类，能够提高后续分类的准确性。

需要说明的一点是，电子设备从待分类视频中提取第一视频图像的帧数可以根据需要进行设置并更改，在本公开实施例中对此不作具体限定。在一种可能的实现方式中，该帧数可以为固定帧数；例如，该帧数为10帧。在另一种可能的实现方式中，该帧数可以与待分类视频的总帧数成正比。例如，该帧数为该待分类视频的总帧数与预设系数的乘积。当该待分类视频的总帧数与预设帧数的乘积为非整数时，对该乘积进行取整，得到该帧数。在另一种可能的实现方式中，该帧数可以为该待分类视频中关键帧的帧数。

需要说明的另一点是，该待分类视频可以为电子设备当前拍摄的视频，还可以为电子设备已存储的视频，还可以为其他设备传送的视频；在本公开实施例中，对该待分类视频的来源不作具体限定。

例如，电子设备从待分类视频中，提取10帧第一视频图像，分别为第一视频图像1、第一视频图像2、第一视频图像3、第一视频图像4、第一视频图像5、第一视频图像6、第一视频图像7、第一视频图像8、第一视频图像9和第一视频图像10。

(2)电子设备对每帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率。

电子设备通过图像分类模型可以得到该第一视频图像的预测标签以及每个预测标签的出现概率。相应的，本步骤可以为：电子设备将每帧第一视频图像输入图像分类模型中，输出该每帧第一视频图像的预测标签以及预设标签的出现概率。其中，上述每个预测标签的出现概率可以为0～1之间的任意数字。

需要说明的一点是，上述图像分类模型为用于对图像进行分类的模型。该图像分类模型可以为基于CNN训练得到的，并且该分类模型可以为电子设备训练的，也可以为其他设备训练，在本公开实施例中，对此都不作具体限定。

例如，电子设备通过图像分类模型对该10帧第一视频图像进行预测，得到10个预测标签，第一视频图像1对应的预测标签为猫，且猫的出现概率为0.91；第一视频图像2对应的预测标签为狗，且狗对应的出现概率为0.76；第一视频图像3对应的预测标签为猫，且猫对应的出现概率为0.96；第一视频图像4对应的预测标签为兔子，且兔子对应的出现概率为0.81；第一视频图像5对应的预测标签为猫，且猫对应的出现概率0.84；第一视频图像6对应的预测标签为猫，且猫对应的出现概率为0.94；第一视频图像7对应的预测标签为狗，且狗对应的出现概率为0.31；第一视频图像8对应的预测标签为兔子，且兔子对应的出现概率为0.17；第一视频图像9对应的预测标签为猫，且猫对应的出现概率为0.96；第一视频图像10对应的预测标签为狗，且狗对应的出现概率为0.93。

在步骤202中，电子设备根据每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率。

其中，上述第一标签集合中存储上述待分类视频的预测标签。本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)电子设备根据每帧第一视频图像的预测标签，确定第一标签集合。

电子设备确定每帧第一视频图像的预测标签后，可以确定上述多个预测标签的种类，将每种预测标签添加到第一标签集合中。例如，当上述多个预测标签都相同时，则上述多个预测标签为同种预测标签，即得到一种预测标签；当上述多个预测标签不全相同时，则上述多个预测标签为多种预测标签，得到多种预测标签。为了便于描述，上述每种预测标签可以称为第一标签，。

例如，电子设备在步骤201的步骤(1)中确定出多种预测标签，分别为猫、狗和兔子，电子设备将猫、狗和兔子添加到第一标签集合中。

(2)对于第一标签集合中的每种第一标签，电子设备确定第一标签的出现次数。对于第一标签集合中的每种第一标签，电子设备根据每帧第一视频图像的预测标签，确定第一标签的出现次数。电子设备得到多个预测标签的种类后，确定每种第一标签的出现次数，例如，第一标签集合中的猫的出现次数为5，狗的出现次数为3，兔子的出现次数为2。

(3)电子设备确定每种第一标签的出现概率对应的预测准确率。

其中，电子设备中存储出现概率和预测准确率的对应关系；相应的，电子设备根据每种第一标签的出现概率，从出现概率和预测准确率的对应关系中确定每种第一标签的出现概率对应的预测准确率。其中，目标阈值可以根据需要进行设置并更改，在本公开实施例中，对目标阈值不作具体限定；例如，目标阈值可以为0.83；则在本步骤电子设备确定出超过目标阈值的标签为猫，猫的出现概率分别为[0.91,0.96,0.84,0.94,0.96],确定[0.91,0.96,0.84,0.94,0.96]对应的预测准确率。

在一种可能的实现方式中，电子设备还可以根据每种第一标签的出现概率，选择出现概率超过目标阈值的第一标签的预测准确率。相应的，本步骤可以为：电子设备根据每种第一标签的出现概率，从每种第一标签中选择出现概率超过目标阈值的第一标签，根据选择的第一标签的出现概率，确定选择的第一标签的出现概率对应的预测准确率。

在步骤203中，电子设备根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量。

上述待分类视频的特征向量包括帧数比、多个概率特征以及多个准确率特征，相应的本步骤可以通过以下步骤(1)至(3)来实现。

(1)电子设备确定每种第一标签的出现次数和多帧第一视频图像的个数的比值，得到帧数比。

对于每种第一标签，电子设备确定该种第一标签的出现次数以及上述多帧第一视频图像的个数，将上述第一标签的出现次数与上述多帧第一视频图像的个数的比值作为帧数比。电子设备可以将每种第一标签表示为label，将该种第一标签出现的次数表示为#prob_label，将多帧第一图像的个数表示为N，其中N为大于1的正整数。则帧数比可以表示为：(#prob_label/N)。

(2)电子设备根据每种第一标签的出现概率，确定多个概率特征。

对于每种第一标签，电子设备从该种第一标签的出现概率中，选择出其中的最大值、最小值和中位数，然后通过计算得出该种第一标签的出现概率的平均值和方差。上述出现概率的最大值、出现概率的最小值、出现概率的中位数、出现概率的平均值以及出现概率的方差即为该种第一标签的多个概率特征。电子设备可以将每种第一的出现概率表示为problabel，则上述出现概率的最大值可以表示为max(prob_label)，上述出现概率的最小值可以表示为min(prob_label)，上述出现概率的平均值可以表示为avg(prob_label)。

(3)电子设备根据每种第一标签对应的预测准确率，确定多个准确率特征。

电子设备可以获取每种第一标签出现概率对应的预测准确率，从中可以选择出现概率最大值对应的预测准确率、出现概率最小值对应的预测准确率。电子设备根据出现概率与预测准确率的对应关系，可以得到出现概率平均值对应的预测准确率。电子设备可以根据上述每种第一标签出现概率对应的预测准确率，确定预测准确率的平均值。上述现出现概率最大值对应的预测准确率、出现概率最小值对应的预测准确率、出现概率平均值对应的预测准确率以及预测准确率的平均值即为该种第一标签的多个准确率特征。电子设备可以将每种第一标签出现概率对应的预测准确率表示为acc_lable，则出现概率最大值对应的预测准确率可以表示为max_prob_acc,出现概率最小值对应的预测准确率可以表示为min_prob_acc，出现概率平均值对应的预测准确率可以表示为avg_prob_acc,预测准确率的平均值可以表示为prob_acc_avg。

需要说明的是，电子设备还可以通过统计特征工程获取第一特征向量，该第一特征向量包括max(prob_label)、min(prob_label)、avg(prob_label)以及中位数mid(prob_label)、方差std(prob_label)和帧数比ratio。电子设备还可以通过先验特征工程获取第二特征向量，该第二特征向量包括max_prob_acc、min_prob_acc、avg_prob_acc以及prob_acc_avg。将上述第一特征向量和第二特征向量合并得到上述待分类视频的特征向量。

在步骤204中，电子设备获取视频分类模型。

电子设备可以获取已经训练好的视频分类模型，以对上述待分类视频进行分类。上述视频分类模型可以是上述电子设备通过训练得到的，也可以是在其他电子设备、服务器或者电子设备中训练得到的。可以是在本步骤训练得到的，也可以是在本步骤执行前已经训练好的。本公开以上述电子设备在本步骤通过训练得到该视频分类模型为例进行说明。

上述视频分类模型的训练过程可以通过以下步骤(1)至(5)来实现。

(1)电子设备获取样本视频和样本视频的样本标签。

上述样本视频可以是视频数据集中的一个视频数据，该视频数据集中包括多个视频数据，每个视频数据都可以作为上述样本视频来参与视频分类模型的训练，本公开以一个样本视频为例进行说明，其他样本视频的处理过程与本公开使用的样本数据相同。上述视频数据集还对应一个视频标签组，该视频标签组中包括多个样本标签，上述样本视频对应一个样本标签，该样本标签为该样本视频的标准分类，用于监督数据的创建。

(2)电子设备对样本视频内的多帧第二视频图像进行预测，得到每帧第二视频图像的预测标签和预测标签的出现概率。

电子设备可以将上述样本视频划分为多帧第二视频图像，对于该多帧第二视频图像，通过至少一个图像分类模型进行预测。每个图像分类模型对上述多帧第二视频图像进行预测的步骤可以参见步骤201的描述，在此不再进行赘述。每个图像分类模型对每帧第二视频图像都可以预测得到一个预测标签及该预测标签的出现概率，多个图像分类模型可以得到多组的预测标签和多组预测标签对应的出现概率。

(3)电子设备根据每帧第二视频图像的预测标签和预测标签的出现概率，确定第二标签集合中的每种第二标签的出现次数和出现概率对应的预测准确率，第二标签集合中存储样本视频的预测标签。

对于每个图像分类模型对上述多帧第二视频图像进行预测得到的预测标签，均可以参考步骤202，在此不再进行赘述。

(4)电子设备根据每种第二标签的出现次数、出现概率和出现概率对应的预测准确率，确定样本视频的特征向量。

本步骤可以参见步骤203，在此不再进行赘述。

(5)电子设备根据样本视频的特征向量和样本标签，训练视频分类模型。

电子设备可以通过机器学习且有监督的方式来训练上述视频分类模型。监督数据的确定方式可以为：当上述样本视频的预测标签与该样本视频的样本标签相同时，可以将机器训练的监督数据设置为第一监督值，当上述样本视频的预测标签与该样本视频的样本标签不相同时，可以将监督数据设置为第二监督值。其中，第一监督值可以为1，表示样本视频的预测标签与该样本视频的样本标签相同，第二监督值可以为0，表示样本视频的预测标签与该样本视频的样本标签不相同。也可以将第一监督值和第二监督值设置为其他数值，本公开对此不进行具体限制。

电子设备根据上述监督数据以上述样本数据的特征向量为训练数据，训练上述视频分类模型，样本数据的特征向量可以有多组，每个图形分类模型对应一组，样本数据可以有多个，将多个样本数据的多组特征向量作为训练数据来及逆行上述视频分类模型的训练。

在步骤205中，电子设备根据待分类视频的特征向量，确定待分类视频的分类标签。

电子设备可以将获取到的待分类视频的特征向量作为上述视频分类模型的输入参数，输入到视频分类模型中，根据待分类视频模型的输出结果来确定待分类视频的分类标签。

图3是根据一示例性实施例示出的一种视频分类装置的框图。参照图3，该装置包括第一预测单元301，第一确定单元302、第二确定单元303和第三确定单元304。

第一预测单元301，被配置为执行对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率；

第一确定单元302，被配置为执行根据每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，第一标签集合中存储待分类视频的预测标签；

第二确定单元303，被配置为执行根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量；

第三确定单元304，被配置为执行根据待分类视频的特征向量，确定待分类视频的分类标签。

在一种可能的实现方式中，第二确定单元303，还被配置为执行根据每种第一标签的出现次数和多帧第一视频图像的个数的比值，确定帧数比；根据每种第一标签的出现概率，确定多个概率特征；根据每种第一标签对应的预测准确率，确定多个准确率特征；将帧数比、多个概率特征以及多个准确率特征组成待分类视频的特征向量。

在另一种可能的实现方式中，第二确定单元303，还被配置为执行从每种第一标签的出现概率中确定最大值、最小值和中位数；根据每种第一标签的出现概率，确定出现概率的平均值和方差；将最大值、最小值、中位数、平均值和方差组成多个概率特征。

在另一种可能的实现方式中，其特征在于，第二确定单元303，还被配置为执行根据每种第一标签的出现概率对应的预测准确率，确定预测准确率的平均值；确定每种预测第一标签的出现概率中最大值对应的预测准确率、最小值对应的预测准确率以及平均值对应的预测准确率；将预测准确率的平均值、最大值对应的预测准确率、最小值对应的预测准确率、平均值对应的预测准确率组成多个准确率特征。

在另一种可能的实现方式中，第三确定单元304，还被配置为执行将待分类视频的特征向量输入视频分类模型中，输出待分类视频的分类标签。

在另一种可能的实现方式中，装置还包括：

获取单元，被配置为执行获取样本视频和样本视频的样本标签；

第二预测单元，被配置为执行对样本视频内的多帧第二视频图像进行预测，得到每帧第二视频图像的预测标签和预测标签的出现概率；

第四确定单元，被配置为执行根据每帧第二视频图像的预测标签和预测标签的出现概率，确定第二标签集合中的每种第二标签的出现次数和出现概率对应的预测准确率，第二标签集合中存储样本视频的预测标签；

第五确定单元，被配置为执行根据每种第二标签的出现次数、出现概率和出现概率对应的预测准确率，确定样本视频的特征向量；

训练单元，被配置为执行根据样本视频的特征向量和样本标签，训练视频分类模型。

在另一种可能的实现方式中，训练单元，还被配置为执行当预测标签和样本标签相同时，将监督数据设置为第一监督值，当预测标签和样本标签不同时，将监督数据设置为第二监督值；根据监督数据，以样本视频的特征向量为训练数据，训练视频分类模型。

在本公开实施例中，通过第一预测单元301对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率；第一确定单元302根据每帧第一视频图像的预测标签和预测标签的出现概率，确定第一标签集合中的每种第一标签的出现次数和出现概率对应的预测准确率，第一标签集合中存储待分类视频的预测标签；第二确定单元303根据每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定待分类视频的特征向量；第三确定单元304根据待分类视频的特征向量，确定待分类视频的分类标签。不同于现有技术中仅通过预测标签出现概率的最大值或则和平均值与出现次数来进行粗粒度的分类，本公开不仅使用了预测标签的出现次数、预测标签的出现概率，还结合出现概率的预测准确率来进行视频分类，分类的粒度更细，分类的结果更加准确。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备400的框图。该电子设备400可以是笔记本电脑、台式电脑或者服务器。电子设备400还可能被称为用户设备、便携式电子设备、台式电子设备等其他名称。

通常，电子设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本公开中方法实施例提供的视频分类方法。

在一些实施例中，电子设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：显示屏404、音频电路405和电源406中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

显示屏404用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏404是触摸显示屏时，显示屏404还具有采集在显示屏404的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏404还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏404可以为一个，设置电子设备400的前面板；在另一些实施例中，显示屏404可以为至少两个，分别设置在电子设备400的不同表面或呈折叠设计；在一些实施例中，显示屏404可以是柔性显示屏，设置在电子设备400的弯曲表面上或折叠面上。甚至，显示屏404还可以设置成非矩形的不规则图形，也即异形屏。显示屏404可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

音频电路405可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

电源406用于为电子设备400中的各个组件进行供电。电源406可以是交流电、直流电、一次性电池或可充电电池。当电源406包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供了一种非临时性计算机可读存储介质，用于电子设备，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行时实现上述实施例的视频分类方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分类方法，其特征在于，包括：

对待分类视频内的多帧第一视频图像进行预测，得到每帧第一视频图像的预测标签和预测标签的出现概率；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每种第一标签的出现次数、出现概率和出现概率对应的预测准确率，确定所述待分类视频的特征向量，包括：

根据所述每种第一标签的出现概率，确定多个概率特征；

根据所述每种第一标签的出现概率对应的预测准确率，确定多个准确率特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每种第一标签的出现概率，确定多个概率特征，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述每种第一标签的出现概率对应的预测准确率，确定多个准确率特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述待分类视频的特征向量，确定所述待分类视频的分类标签，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取样本视频和所述样本视频的样本标签；

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本视频的特征向量和所述样本标签，训练所述视频分类模型，包括：

8.一种视频分类装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第二确定单元，还被配置为执行确定所述每种第一标签的出现次数和所述多帧第一视频图像的个数的比值，得到帧数比；根据所述每种第一标签的出现概率，确定多个概率特征；根据所述每种第一标签的出现概率对应的预测准确率，确定多个准确率特征；将所述帧数比、所述多个概率特征以及所述多个准确率特征组成所述待分类视频的特征向量。

10.根据权利要求9所述的装置，其特征在于，所述第二确定单元，还被配置为执行从所述每种第一标签的出现概率中确定最大值、最小值和中位数；根据所述每种第一标签的出现概率，确定出现概率的平均值和方差；将所述最大值、所述最小值、所述中位数、所述平均值和所述方差组成所述多个概率特征。

11.根据权利要求9或10所述的装置，其特征在于，所述第二确定单元，还被配置为执行根据所述每种第一标签的出现概率对应的预测准确率，确定预测准确率的平均值；确定所述每种预测第一标签的出现概率中最大值对应的预测准确率、最小值对应的预测准确率以及平均值对应的预测准确率；将所述预测准确率的平均值、所述最大值对应的预测准确率、所述最小值对应的预测准确率、所述平均值对应的预测准确率组成所述多个准确率特征。

12.根据权利要求8所述的装置，其特征在于，所述第三确定单元，还被配置为执行将所述待分类视频的特征向量输入视频分类模型中，输出所述待分类视频的分类标签。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述训练单元，还被配置为执行当所述预测标签和所述样本标签相同时，将监督数据设置为第一监督值，当所述预测标签和所述样本标签不同时，将监督数据设置为第二监督值；根据所述监督数据，以所述样本视频的特征向量为训练数据，训练所述视频分类模型。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频分类方法。

16.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的视频分类方法。