CN109740621B

CN109740621B - 一种视频分类方法、装置及设备

Info

Publication number: CN109740621B
Application number: CN201811380421.6A
Authority: CN
Inventors: 刘洁; 蔡东阳; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2021-02-05
Anticipated expiration: 2038-11-20
Also published as: CN109740621A

Abstract

本发明实施例提供了一种视频分类方法、装置及设备，该方法包括：获取待分类视频；利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果；利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果；根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

Description

一种视频分类方法、装置及设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频分类方法、装置及设备。

背景技术

随着互联网技术的发展，运营商能够通过互联网向用户提供各种各样的视频。而由于视频的数量过于庞大，因此，如何对视频进行分类，以使用户能够从海量的视频中方便、快捷的获取自己感兴趣的视频成为运营商面临的一个重要研究课题，并具有重要的理论意义与实际应用价值。

发明内容

本发明实施例的目的在于提供一种视频分类方法、装置及设备，以实现对视频进行分类。具体技术方案如下：

本发明实施的一方面，提供了一种视频分类方法，所述方法包括：

获取待分类视频；

利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果，其中，所述第一模型为：根据时序特征对视频进行分类的模型，所述第一类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果，其中，所述第二模型为：根据时序特征和空间特征对视频进行分类的模型，所述第二类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果，其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数多少的权值。

可选的，所述根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值确定所述待分类视频的分类结果的步骤，包括：

统计所述第一类分类结果与所述第二类分类结果中包含的各个类别的出现次数；

以所述第一模型的模型权值为所述第一类分类结果包含的各个类别的权值更新所述第一类分类结果包含的各个类别的置信度，以所述第二模型的模型权值为所述第二类分类结果包含的各个类别的权值更新所述第二类分类结果包含的各个类别的置信度；

对所述第一类分类结果包含的各个类别与所述第二类分类结果包含的各个类别中相同类别的更新后置信度进行相加，得到各个类别的最终置信度；

根据各个类别的最终置信度与各个类别对应的次数权值确定所述待分类视频的分类结果。

可选的，根据各个类别的最终置信度与各个类别对应的次数权值确定所述待分类视频的分类结果的步骤，包括：

计算各个类别的最终置信度与各个类别对应的次数权值的和值；

将第四预设数量个最高和值对应的类别确定为所述待分类视频的分类结果。

可选的，所述第一模型包括：预先训练好的根据时序特征对视频进行分类的第一子模型和预先训练好的根据时序特征对视频进行分类的第二子模型；

其中，所述第一子模型为：根据训练集中包含的视频对用于根据时序特征对视频进行分类的初始模型进训练得到模型；

所述第二子模型通过以下方式训练得到：

利用所述第一子模型对测试集中包含的视频进行分类，得到测试分类结果；

确定所得到的测试分类结果中准确率低于预设阈值的准确率对应的类别；

对所确定的类别对应的视频进行重采样，将重采样后的视频更新至所述训练集；

利用更新后的训练集对所述第一子模型进行训练，得到所述第二子模型；

相应地，利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果的步骤，包括：

利用所述第一子模型对所述待分类视频进行分类，得到第一类子分类结果，利用所述第二子模型对所述待分类视频进行分类，得到第二类子分类结果；

所述根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值确定所述待分类视频的分类结果的步骤，包括：

根据所述第一子模型的模型权值、所述第二子模型的模型权值、所述第二模型的模型权值、所述第一类子分类结果中包含的各个类别的置信度、所述第二类子分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值确定所述待分类视频的分类结果。

可选的，所述预先训练好的利用第一模型对所述待分类视频进行分类，得到第一类分类结果的步骤，包括：

从所述待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值，其中，每个第一类视频帧集合包括至少两帧视频帧，所述时序关系值表示视频帧之间在时间域的变化程度；

对计算得到的时序关系值进行求和得到时序特征；

在预先建立的视频识别数据库中查找与所述时序特征相匹配的视频，获得所述第一类分类结果。

可选的，所述从所述待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值的步骤，包括：

设置第一数量为预设的视频帧数量初始值；

从所述待分类视频包含的视频帧中选取所述第一数量帧视频帧得到一个第一类视频帧集合，并计算所得到的第一类视频帧集合中视频帧之间的时序关系值；

将所述第一数量累加预设的视频帧数量变化步长；

从所述待分类视频包含的视频帧中选取累加后第一数量帧视频帧得到一个第一类视频帧集合，并计算所得到的第一类视频帧集合中视频帧之间的时序关系值；

在已得到第一类视频帧集合的数量未达到所述第一预设值的情况下，判断累加后第一数量是否达到第二预设值；

若为否，返回执行所述将所述第一数量累加预设的视频帧数量变化步长的步骤；

若为是，返回执行所述设置第一数量为预设的视频帧数量初始值的步骤。

可选的，所述利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果的步骤，包括：

从所述待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值，其中，每个第二类视频帧集合包含视频帧的数量相同，所述时序关系值表示视频帧之间在时间域的变化程度，所述空间关系值表示视频帧之间在空间域的变化程度；

分别对计算得到的时序关系值和空间关系值进行求和得到多维特征；

在预先建立的视频识别数据库中查找与所述多维特征相匹配的视频，获得所述第二类分类结果。

可选的，所述从所述待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值的步骤，包括：

设置第二数量为第二类视频帧集合包含视频帧的数量，设置第三数量为从所述待分类视频包含的视频帧中选取视频帧的帧号；

从所述待分类视频包含的视频帧中选取以所述第三数量为起始帧的帧号、第二数量为选取数量的连续帧视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

将所述第三数量累加预设的视频帧帧号变化步长；

从所述待分类视频包含的视频帧中选取以累加后第三数量为起始帧的帧号、第二数量为选取数量的连续帧视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

在未得到所述第三预设值个第二类视频帧集合的情况下，返回将所述第三数量累加预设的视频帧帧号变化步长的步骤。

本发明实施的又一方面，还提供了一种视频分类装置，所述装置包括：

获取模块，用于获取待分类视频；

第一得到模块，用于利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果，其中，所述第一模型为：根据时序特征对视频进行分类的模型，所述第一类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

第二得到模块，用于利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果，其中，所述第二模型为：根据时序特征和空间特征对视频进行分类的模型，所述第二类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

确定模块，用于根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果，其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数多少的权值。

可选的，所述确定模块包括：

统计子模块，用于统计所述第一类分类结果与所述第二类分类结果中包含的各个类别的出现次数；

更新子模块，用于以所述第一模型的模型权值为所述第一类分类结果包含的各个类别的权值更新所述第一类分类结果包含的各个类别的置信度，以所述第二模型的模型权值为所述第二类分类结果包含的各个类别的权值更新所述第二类分类结果包含的各个类别的置信度；

相加子模块，用于对所述第一类分类结果包含的各个类别与所述第二类分类结果包含的各个类别中相同类别的更新后置信度进行相加，得到各个类别的最终置信度；

确定子模块，用于根据各个类别的最终置信度与各个类别对应的次数权值确定所述待分类视频的分类结果。

可选的，所述确定子模块，具体用于

所述第二子模型通过以下方式训练得到：

相应地，所述第一得到模块具体用于，

所述确定模块具体用于，

可选的，所述第一得到模块，包括：

第一选取子模块，用于从所述待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值，其中，每个第一类视频帧集合包括至少两帧视频帧，所述时序关系值表示视频帧之间在时间域的变化程度；

第一求和子模块，用于对计算得到的时序关系值进行求和得到时序特征；

第一获得子模块，用于在预先建立的视频识别数据库中查找与所述时序特征相匹配的视频，获得所述第一类分类结果。

可选的，所述选取子模块，具体用于

设置第一数量为预设的视频帧数量初始值；

将所述第一数量累加预设的视频帧数量变化步长；

可选的，所述第二得到模块，包括：

第二选取子模块，用于从所述待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值，其中，每个第二类视频帧集合包含视频帧的数量相同，所述时序关系值表示视频帧之间在时间域的变化程度，所述空间关系值表示视频帧之间在空间域的变化程度；

第二求和子模块，用于分别对计算得到的时序关系值和空间关系值进行求和得到多维特征；

第二匹配子模块，用于在预先建立的视频识别数据库中查找与所述多维特征相匹配的视频，获得所述第二类分类结果。

可选的，所述第二选取子模块具体用于，

将所述第三数量累加预设的视频帧帧号变化步长；

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的视频分类方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频分类方法。

本发明实施例提供的视频分类方法、装置及设备，可以在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种视频分类方法的流程示意图；

图2为本发明实施例提供的一种确定待分类视频的分类结果的流程示意图；

图3为本发明实施例提供的一种计算时序关系值的流程示意图；

图4为本发明实施例提供的一种计算时序关系值和空间关系值的流程示意图；

图5为本发明实施例提供的一种视频分类装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，示出了本发明实施例提供的一种视频分类方法的流程示意图，该方法包括：

S100，获取待分类视频。

上述待分类视频可以理解为需要确定视频所属类别的视频，具体的，待分类视频可以为一部电影、一部电视剧中的某一集或者某一视频片段等。

S110，利用预先训练好的第一模型对待分类视频进行分类，得到第一类分类结果。

其中，第一模型为：根据时序特征对视频进行分类的模型，第一类分类结果包括至少一个待分类视频所属的类别和该类别的置信度。

第一分类结果中的类别也就是待分类视频可能属于的类别，并且一个类别的置信度越高则表示待分类视频属于该类别的可能性越高。相应地，待分类视频为一部电影时，第一类分类结果中可能包括：喜剧类别、动作类别等；待分类视频为一个视频片段时，第一类分类结果中可能包括：踢球类别、打篮球类别、唱歌类别。

一种实现方式中，可以从待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值，其中，每个第一类视频帧集合包括至少两帧视频帧，时序关系值表示视频帧之间在时间域的变化程度；对计算得到的时序关系值进行求和得到时序特征；在预先建立的视频识别数据库中查找与时序特征相匹配的视频，从而获得第一类分类结果。

第一预设值可以根据对分类结果准确性的需求来确定，所选取的视频帧集合越多，计算得到的时序特征越准确。

时序关系值也就是表示视频帧之间在时间域的像素点的变化情况，相应地也就需要一个第一类视频帧集合中包含的视频帧之间不能有重复的视频帧。

具体的，可以利用以下公式计算每组视频帧集合中视频帧之间的时序关系值：

其中，T_n(V)表示视频帧之间的时序关系值，i、j……n表示视频帧集合中的视频帧在所述视频中的帧号，f_i、f_j、f_n分别表示帧号为i、j、n的视频帧的时间特征，g_θ表示预设的关系矩阵，h_Φ表示用于对视频帧间的时序关系进行融合的函数。

一种实现方式中，上述g_θ和h_Φ可以利用MLP(Multi-Layer Perceptron，多层感知器)来确定。

S120，利用预先训练好的第二模型对待分类视频进行分类，得到第二类分类结果。

其中，第二模型为：根据时序特征和空间特征对视频进行分类的模型，第二类分类结果包括至少一个待分类视频所属的类别和该类别的置信度。

第二分类结果中的类别也就是待分类视频可能属于的类别，并且一个类别的置信度越高则表示待分类视频属于该类别的可能性越高。相应地，待分类视频为一部电影时，第二类分类结果中可能包括：喜剧类别、动作类别等；待分类视频为一个视频片段时，第二类分类结果中可能包括：踢球类别、打篮球类别、唱歌类别。

一种实现方式中，可以从待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值，其中，每个第二类视频帧集合包含视频帧的数量相同，时序关系值表示视频帧之间在时间域的变化程度，空间关系值表示视频帧之间在空间域的变化程度；分别对计算得到的时序关系值和空间关系值进行求和得到多维特征；在预先建立的视频识别数据库中查找与多维特征相匹配的视频，从而获得第二类分类结果。

第三预设值可以根据对分类结果准确性的需求来确定，所选取的视频帧集合越多，计算得到的多维特征越准确。

时序关系值也就是表示视频帧之间在时间域的像素点的变化情况，空间关系值也就是表示视频帧之间在空间域的像素点的变化情况，相应地也就需要一个第二类视频帧集合中包含的视频帧之间不能有重复的视频帧。

具体的，可以利用一个1*3*3的二维空间卷积和3*1*1的一维时域卷积来计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值。

S130，根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定待分类视频的分类结果。

其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数多少的权值。

模型权值也就是模型对视频进行分类所得分类结果准确性越高对应的值越大。次数权值也就是类别在第一类分类结果和第二类分类结果中出现次数越多对应地值越大。

参见图2，示出了本发明实施例提供的一种确定待分类视频的分类结果的流程示意图，包括：

S131，统计第一类分类结果与第二类分类结果中包含的各个类别的出现次数；

一种类别可能在第一类分类结果和第二类分类结果中同时出现多次，也可能只出现一次。一种实现方式中，可以先确定第一类分类结果和第二类分类结果中包含的类别，比如，第一类分类结果中包括：A类别、B类别、C类别、D类别；第二类分类结果中包括：A类别、B类别、E类别、F类别；那么第一类分类结果和第二类分类结果中包含的类别则有A类别、B类别、C类别、D类别、E类别、F类别。然后再统计各个类别在第一类分类结果与第二类分类结果中的出现次数。

S132，以第一模型的模型权值为第一类分类结果包含的各个类别的权值更新第一类分类结果包含的各个类别的置信度，以第二模型的模型权值为第二类分类结果包含的各个类别的权值更新第二类分类结果包含的各个类别的置信度；

一种实现方式中，可以以第一模型的模型权值分别乘以第一类分类结果包含的各个类别的置信度来更新第一类分类结果包含的各个类别的置信度；以第二模型的模型权值分别乘以第二类分类结果包含的各个类别的置信度开更新第二类分类结果包含的各个类别的置信度。

比如，第一模型的模型权值为0.6，第一类分类结果中动作类别的置信度为85，喜剧类别的置信度为60，那么以第一模型的模型权值为第一类分类结果包含的各个类别的权值更新第一类分类结果包含的各个类别的置信度之后，第一类分类结果中动作类别的置信度变为51，喜剧类别的置信度变为36；第二模型的模型权值为0.5第二类分类结果中动作类别的置信度为90，喜剧类别的置信度为70，那么以第二模型的模型权值为第二类分类结果包含的各个类别的权值更新第二类分类结果包含的各个类别的置信度之后，第二类分类结果中动作类别的置信度为45，喜剧类别的置信度为35。

S133，对第一类分类结果包含的各个类别与第二类分类结果包含的各个类别中相同类别的更新后置信度进行相加，得到各个类别的最终置信度；

将相同类别的更新后的置信度相加，也就得到了各个类别的最终置信度。比如，第一类分类结果中动作类别更新后的置信度为51，第二类分类结果中动作类别更新后的置信度为45，则动作类别的最终置信度则为96。

S134，根据各个类别的最终置信度与各个类别对应的次数权值确定待分类视频的分类结果。

具体的，在根据各个类别的最终置信度与各个类别对应的次数权值确定待分类视频的分类结果的过程中，可以计算各个类别的最终置信度与各个类别对应的次数权值的和值，将第四预设数量个最高和值对应的类别确定为待分类视频的分类结果。还可以计算各个类别的最终置信度与各个类别对应的次数权值的乘积，将第四预设数量个最高乘积对应的类别确定为待分类视频的分类结果。

本发明实施例一种实现方式中，上述第一模型可以包括：预先训练好的根据时序特征对视频进行分类的第一子模型和预先训练好的根据时序特征对视频进行分类的第二子模型；

具体的，第一子模型为：根据训练集中包含的视频对用于根据时序特征对视频进行分类的初始模型进训练得到模型；

初始模型也就是根据时序特征对视频进行分类的模型框架，对视频进行分类之前可以根据待分类视频来对初始模型进行训练得到所需的模型，比如，待分类视频为电影，训练集中则需要对不同类别的电影进行采样，再利用训练集对初始模型进行训练得到所需的模型；待分类视频为视频片段时，训练集中则需要对不同类别的视频片段进行采样，再利用训练集对初始模型进行训练得到所需的模型。

第二子模型可以通过以下方式训练得到：

利用第一子模型对测试集中包含的视频进行分类，得到测试分类结果；确定所得到的测试分类结果中准确率低于预设阈值的准确率对应的类别；对所确定的类别对应的视频进行重采样，将重采样后的视频更新至训练集；利用更新后的训练集对第一子模型进行训练，得到第二子模型。

第二子模型也就是对第一子模型错分率高的视频类别进行重采样后，对第一子模型进行强化训练得到的模型，因此，在后续同时利用第一子模型和第二子模型对视频进行分类时，综合两个子模型的分类结果能够提高分类结果的准确性。

此时，上述S110可以包括：

利用第一子模型对待分类视频进行分类，得到第一类子分类结果，利用第二子模型对待分类视频进行分类，得到第二类子分类结果；

相应地，上述S130则可以包括：

根据第一子模型的模型权值、第二子模型的模型权值、第二模型的模型权值、第一类子分类结果中包含的各个类别的置信度、第二类子分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值确定待分类视频的分类结果。

在第一模型包括第一子模型和第二子模型的情况下，确定待分类视频的分类结果的具体过程与上述S130确定分类结果的具体过程类似，具体可以参见上述S130确定分类结果的过程。

本发明实施例一种实现方式中，上述从待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值时，一种实现方式中，可以从待分类视频包含的视频帧中随机选取视频帧得到一个第一类视频帧集合，直至选取第一预设值个第一类视频帧集合后，计算每个第一类视频帧集合中视频帧之间的时序关系值；

另一种实现方式中，参见图3，示出了本发明实施例提供的一种计算时序关系值的流程示意图，包括：

S11，设置第一数量为预设的视频帧数量初始值；

S12，从待分类视频包含的视频帧中选取第一数量帧视频帧得到一个第一类视频帧集合，并计算所得到的第一类视频帧集合中视频帧之间的时序关系值；

S13，将第一数量累加预设的视频帧数量变化步长；

S14，从待分类视频包含的视频帧中选取累加后第一数量帧视频帧得到一个第一类视频帧集合，并计算所得到的第一类视频帧集合中视频帧之间的时序关系值；

S15，在已得到第一类视频帧集合的数量未达到第一预设值的情况下，判断累加后第一数量是否达到第二预设值，在判断结果为否时返回S13，在判断结果为是时返回S11；

在从待分类视频包含的视频帧中选取第一数量帧视频帧得到一个第一类视频帧集合的过程中，如果已得到第一类视频帧集合的数量达到第一预设值则结束选取。

第一数量也就是从待分类视频包含的视频帧中选取视频帧的数量。

视频帧数量初始值和第二预设值可以根据对分类结果准确性的需求来确定，视频帧数量初始值越小且第二预设值越大，得到的第一类视频帧集合中能够包含视频帧的变化情况越丰富，计算得到的时序特征的置信度越高。

视频帧数量变化步长可以根据对分类结果准确性的需求来确定，视频帧数量变化步长越小，得到的第一类视频帧集合中能够包含视频帧的变化情况越丰富，计算得到的时序特征的置信度越高。

以下以一具体实施例对上述从待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值时的过程进行说明：

设定第一预设值为15，视频帧数量初始值为2，视频帧数量变化步长为1，第二预设值为9；

从视频片段包含的视频帧中选取2帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值；

得到视频帧集合的数量为1小于15，并且2+1＝3小于9，从视频片段包含的视频帧中选取3帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值；

得到视频帧集合的数量为2小于15，并且3+1＝4小于9，从视频片段包含的视频帧中选取4帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值；

直至得到视频帧集合的数量为7时，也就是从视频片段包含的视频帧中选取8帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值之后，此时，7小于15，但是8+1＝9也就是达到了第二预设值9，此时，设置第一数量为2，

继续从视频片段包含的视频帧中选取2帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值；

得到视频帧集合的数量为8小于15，并且2+1＝3小于9，从视频片段包含的视频帧中选取3帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值；

直至得到视频帧集合的数量为14时，也就是再次从视频片段包含的视频帧中选取8帧视频帧得到一个视频帧集合，并计算所得到的视频帧集合中视频帧之间的时序关系值之后，此时，14小于15，但是8+1＝9也就是达到第二预设值9，此时，设置第一数量为2，

此时得到的视频帧集合的数量为15，结束选取。

本发明实施例一种实现方式中，上述从待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值的过程中，

一种实现方式中，可以设定第二类视频帧集合中包含的视频帧的数量，每次从待分类视频包含的视频帧中随机选取设定的数量帧视频帧得到一个第二类视频帧集合，直至选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值。

另一种实现方式中，参见图4，示出了本发明实施例提供的一种计算时序关系值和空间关系值的流程示意图，包括：

S21，设置第二数量为第二类视频帧集合包含视频帧的数量，设置第三数量为从待分类视频包含的视频帧中选取视频帧的帧号；

S22，从待分类视频包含的视频帧中选取以第三数量为起始帧的帧号、第二数量为选取数量的连续帧视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

S23，将第三数量累加预设的视频帧帧号变化步长；

S24，从待分类视频包含的视频帧中选取以累加后第三数量为起始帧的帧号、第二数量为选取数量的连续帧视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

S25，在未得到第三预设值个第二类视频帧集合的情况下，返回S23。

第二数量和第三数量可以为根据待分类视频中包含的视频帧的数量预先设定好的数值，第二数量和第三数量分别小于待分类视频中包含的视频帧的数量和待分类视频中包含的视频帧的最大帧号即可。

第三预设值可以根据对分类结果准确性的需求来确定，第三预设值越大，得到的第二类视频帧集合中能够包含视频帧的变化情况越丰富，计算得到的时序特征和空间特征的置信度越高。

视频帧帧号变化步长可以根据对分类结果准确性的需求来确定，视频帧帧号变化步长越小，得到的第二类视频帧集合中能够包含视频帧的变化情况越丰富，计算得到的时序特征和空间特征的置信度越高。

以下以一具体实施例对上述从待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值的过程中进行说明：

设置第二数量即第二类视频帧集合包含视频帧的数量为4，设置第三数量即从待分类视频包含的视频帧中选取视频帧的帧号为1，设置视频帧帧号变化步长为1，第三预设值即需要得到的第二类视频帧集合的数量为10。

首先，选取帧号为1、2、3、4的视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

接着，选取帧号为2、3、4、5的视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

再选取帧号为3、4、5、6的视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值；

依次类推，直至选取帧号为10、11、12、13的视频帧得到一个第二类视频帧集合，并计算所得到的第二类视频帧集合中视频帧之间的时序关系值和空间关系值之后结束。

本发明实施例提供的各个方案中，视频分类方法可以在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

参见图5，示出了本发明实施例提供的一种视频分类装置的结构示意图，该装置包括：

获取模块200，用于获取待分类视频；

第一得到模块210，用于利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果，其中，所述第一模型为：根据时序特征对视频进行分类的模型，所述第一类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

第二得到模块220，用于利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果，其中，所述第二模型为：根据时序特征和空间特征对视频进行分类的模型，所述第二类分类结果包括至少一个所述待分类视频所属的类别和该类别的置信度；

确定模块230，用于根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果，其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数多少的权值。

本发明实施例一种实现方式中，上述确定模块230包括：

本发明实施例一种实现方式中，所述确定子模块，具体用于

本发明实施例一种实现方式中，所述第一模型包括：预先训练好的根据时序特征对视频进行分类的第一子模型和预先训练好的根据时序特征对视频进行分类的第二子模型；

所述第二子模型通过以下方式训练得到：

相应地，第一得到模块210具体用于，

确定模块220具体用于。

本发明实施例一种实现方式中，所述第一得到模块210，包括：

本发明实施例一种实现方式中，所述选取子模块，具体用于

设置第一数量为预设的视频帧数量初始值；

将所述第一数量累加预设的视频帧数量变化步长；

本发明实施例一种实现方式中，所述第二得到模块，包括：

第二匹配子模块，用于在预先建立的视频识别数据库中查找与所述多维特征相匹配的视频，获得第二类分类结果。

本发明实施例一种实现方式中，所述第二选取子模块具体用于，

将所述第三数量累加预设的视频帧帧号变化步长；

本发明实施例提供的各个方案中，视频分类装置可以在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器001、通信接口002、存储器003和通信总线004，其中，处理器001，通信接口002，存储器003通过通信总线004完成相互间的通信，

存储器003，用于存放计算机程序；

处理器001，用于执行存储器003上所存放的程序时，实现本发明实施例提供的视频分类方法。

具体的，上述视频分类方法包括：

获取待分类视频；

需要说明的是，上述处理器001执行存储器003上所存放的程序实现视频分类方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

本发明实施例提供的各个方案中，电子设备在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-Volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，实现本发明实施例提供的视频分类方法。

具体的，上述视频分类方法包括：

获取待分类视频；

需要说明的是，通过上述计算机可读存储介质实现视频分类方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

本发明实施例提供的各个方案中，计算机可读存储介质可以在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，实现本发明实施例提供的视频分类方法。

具体的，上述视频分类方法包括：

获取待分类视频；

需要说明的是，通过上述计算机程序产品实现时序动作检测方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

本发明实施例提供的各个方案中，计算机程序产品可以在获取待分类视频之后，利用第一模型对所述待分类视频进行分类，得到第一类分类结果；利用第二模型对所述待分类视频进行分类，得到第二类分类结果；并根据第一模型的模型权值、第二模型的模型权值、第一类分类结果中包含的各个类别的置信度、第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果。应用本发明实施例提供的各个方案能够对视频进行分类。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待分类视频；

利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果，其中，所述第一模型为：根据时序特征对视频进行分类的模型，所述第一类分类结果包括至少一个所述待分类视频所属的类别和各个类别的置信度；

利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果，其中，所述第二模型为：根据时序特征和空间特征对视频进行分类的模型，所述第二类分类结果包括至少一个所述待分类视频所属的类别和各个类别的置信度；

根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果，其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数对应的权值。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值确定所述待分类视频的分类结果的步骤，包括：

3.如权利要求2所述的方法，其特征在于，根据各个类别的最终置信度与各个类别对应的次数权值确定所述待分类视频的分类结果的步骤，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，

所述第一模型包括：预先训练好的根据时序特征对视频进行分类的第一子模型和预先训练好的根据时序特征对视频进行分类的第二子模型；

所述第二子模型通过以下方式训练得到：

5.如权利要求1所述的方法，其特征在于，所述利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果的步骤，包括：

对计算得到的时序关系值进行求和得到时序特征；

6.如权利要求5所述的方法，其特征在于，所述从所述待分类视频包含的视频帧中选取第一预设值个第一类视频帧集合，并计算每个第一类视频帧集合中视频帧之间的时序关系值的步骤，包括：

设置第一数量为预设的视频帧数量初始值；

将所述第一数量累加预设的视频帧数量变化步长；

7.如权利要求1所述的方法，其特征在于，所述利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果的步骤，包括：

8.如权利要求7所述的方法，其特征在于，所述从所述待分类视频包含的视频帧中选取第三预设值个第二类视频帧集合，并计算每个第二类视频帧集合中视频帧之间的时序关系值和空间关系值的步骤，包括：

将所述第三数量累加预设的视频帧帧号变化步长；

9.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类视频；

第一得到模块，用于利用预先训练好的第一模型对所述待分类视频进行分类，得到第一类分类结果，其中，所述第一模型为：根据时序特征对视频进行分类的模型，所述第一类分类结果包括至少一个所述待分类视频所属的类别和各个类别的置信度；

第二得到模块，用于利用预先训练好的第二模型对所述待分类视频进行分类，得到第二类分类结果，其中，所述第二模型为：根据时序特征和空间特征对视频进行分类的模型，所述第二类分类结果包括至少一个所述待分类视频所属的类别和各个类别的置信度；

确定模块，用于根据所述第一模型的模型权值、所述第二模型的模型权值、所述第一类分类结果中包含的各个类别的置信度、所述第二类分类结果中包含的各个类别的置信度以及各个类别的次数权值，确定所述待分类视频的分类结果，其中，每一模型的模型权值为：预先设定的、表示利用该模型对视频进行分类所得分类结果准确性的权值，每一类别的次数权值为：预先设定的、表示该类别在第一类分类结果和第二类分类结果中出现次数对应的权值。

10.如权利要求9所述的装置，其特征在于，所述确定模块包括：

11.如权利要求10所述的装置，其特征在于，所述确定子模块，具体用于计算各个类别的最终置信度与各个类别对应的次数权值的和值；

12.如权利要求9-11任一项所述的装置，其特征在于，所述第一模型包括：预先训练好的根据时序特征对视频进行分类的第一子模型和预先训练好的根据时序特征对视频进行分类的第二子模型；

所述第二子模型通过以下方式训练得到：

相应地，所述第一得到模块具体用于，

所述确定模块具体用于，

13.如权利要求9所述的装置，其特征在于，所述第一得到模块，包括：

14.如权利要求13所述的装置，其特征在于，所述选取子模块，具体用于设置第一数量为预设的视频帧数量初始值；

将所述第一数量累加预设的视频帧数量变化步长；

15.如权利要求9所述的装置，其特征在于，所述第二得到模块，包括：

16.如权利要求15所述的装置，其特征在于，所述第二选取子模块具体用于，

将所述第三数量累加预设的视频帧帧号变化步长；

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。