CN108205685A

CN108205685A - 视频分类方法、视频分类装置及电子设备

Info

Publication number: CN108205685A
Application number: CN201711172591.0A
Authority: CN
Inventors: 孙书洋; 旷章辉; 张伟
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-06-26

Abstract

本发明公开了一种视频分类方法、视频分类装置、电子设备及计算机可读存储介质，其中，该视频分类方法包括：从待分类视频中抽取N张视频帧，其中；基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点；根据提取到的所述关键点确定所述视频帧中的至少一个关键区域；基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测，获得所述待分类视频的分类结果。本发明提供的技术方案能够有效提高视频分类的鲁棒性。

Description

视频分类方法、视频分类装置及电子设备

技术领域

本发明涉及视频技术领域，具体涉及一种视频分类方法、视频分类装置、电子设备及计算机可读存储介质。

背景技术

随着视频技术和网络技术的发展，用户可以从多种渠道获得各种各样的视频资源。

由于视频资源的数量过于庞大，因此，“如何对这些视频进行分类，以使得用户能够从海量的视频中更加方便地获取自己感兴趣的视频”成为计算机视觉领域里面非常重要且具有挑战性的研究热点之一。

传统的视频分类方法主要基于视觉信息，其中涉及到特征提取、视频建模、分类技术三个方面的内容。在特征提取环节，传统的视频分类方法通常选取视频帧的全局特征来表示视频，在视频建模和分类技术环节，基于提取的视频帧的全局特征进行视频行为分类预测，并基于分类预测的结果对视频进行分类。

发明内容

本发明提供一种视频分类方法、视频分类装置、电子设备及计算机可读存储介质，用于提高视频分类的鲁棒性。

本发明第一方面提供一种视频分类方法，包括：

基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点；

根据提取到的所述关键点确定所述视频帧中的至少一个关键区域；

基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测，获得所述待分类视频的分类结果。

基于发明第一方面，在第一种可能的实现方式中，所述基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点，包括：

基于对象特征提取网络，分别在待分类视频的N张视频帧中提取目标对象的关键点，所述N不小于2；

所述基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测，获得所述待分类视频的分类结果，包括：

基于视频分类网络，分别根据每张视频帧中的关键区域对所述每张视频帧进行分类预测，获得所述N张视频帧的分类结果；

对所述N张视频帧的分类结果进行融合，得到所述待分类视频的分类结果。

基于发明第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基于视频分类网络，分别根据每张视频帧中的关键区域对所述每张视频帧进行分类预测，获得所述N张视频帧的分类结果包括：

基于所述视频分类网络，分别对所述N张视频帧进行分类预测，得到各张视频帧的分类结果；

基于所述视频分类网络，分别根据每张视频帧中的关键区域进行分类预测，得到每张视频帧中的各个关键区域的分类结果；

基于同一视频帧的各个关键区域的分类结果，对相应视频帧的分类结果进行更新。

基于本发明第一方面，或者本发明第一方面的第一种可能的实现方式，或者，本发明第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述根据提取到的所述关键点确定所述视频帧中的至少一个关键区域，包括：

当从所述视频帧中提取到与人脸相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域；

和/或，

当从所述视频帧中提取到与手部相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一手部相关的所有关键点的关键区域。

基于本发明第一方面，或者本发明第一方面的第一种可能的实现方式，或者，本发明第一方面的第二种可能的实现方式，在第四种可能的实现方式中，所述基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测之前，还包括：

使用目标对象的样本帧，对所述视频分类网络进行训练，所述目标对象的样本帧标注有目标对象的类别信息。

基于本发明第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述使用目标对象的样本帧，对所述视频分类网络进行训练，包括：

基于对象特征提取网络在目标对象的样本帧中提取目标对象的关键点；根据提取到的所述关键点确定所述样本帧中的至少一个关键区域；基于视频分类网络，根据所述至少一个关键区域对所述样本帧进行分类预测，获得所述样本帧的分类结果；比对所述样本帧的分类结果与所述样本帧所标注的类别信息；

若满足训练终止条件，则停止训练；

若不满足训练终止条件，则根据所述样本帧的分类结果与所述样本帧所标注的类别信息调整所述视频分类网络的参数，并继续执行所述基于对象特征提取网络在目标对象的样本帧中提取目标对象的关键点；根据提取到的所述关键点确定所述样本帧中的至少一个关键区域；基于待训练视频分类网络，根据所述至少一个关键区域对所述样本帧进行分类预测，获得所述样本帧的分类结果；比对所述样本帧的分类结果与所述样本帧所标注的类别信息的步骤。

本发明第二方面提供一种视频分类装置，包括：

提取单元，用于基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点；

确定单元，用于根据所述提取单元提取到的所述关键点确定所述视频帧中的至少一个关键区域；

分类预测单元，用于基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测，获得所述待分类视频的分类结果。

基于本发明第二方面，在第一种可能的实现方式中，所述提取单元具体用于：基于对象特征提取网络，分别在待分类视频的N张视频帧中提取目标对象的关键点，所述N不小于2；

所述分类预测单元包括：

视频帧分类预测子单元，用于基于视频分类网络，分别根据每张视频帧中的关键区域对所述每张视频帧进行分类预测，获得所述N张视频帧的分类结果；

融合单元，用于对所述N张视频帧的分类结果进行融合，得到所述待分类视频的分类结果。

基于本发明第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述视频帧分类预测子单元具体用于：

基于本发明第二方面，或者本发明第二方面的第一种可能的实现方式，或者本发明第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述确定单元具体用于：

当所述提取单元从所述视频帧中提取到与人脸相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域；

和/或，

当所述提取单元从所述视频帧中提取到与手部相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一手部相关的所有关键点的关键区域。

基于本发明第二方面，或者本发明第二方面的第一种可能的实现方式，或者本发明第二方面的第二种可能的实现方式，在第四种可能的实现方式中，所述视频分类装置还包括：

训练单元，用于使用目标对象的样本帧，对所述视频分类网络进行训练，所述目标对象的样本帧标注有目标对象的类别信息。

基于本发明第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述训练单元包括：

提取子单元，用于基于对象特征提取网络在目标对象的样本帧中提取目标对象的关键点；

确定子单元，用于根据所述提取子单元提取到的所述关键点确定所述样本帧中的至少一个关键区域；

分类预测子单元，用于基于视频分类网络，根据所述至少一个关键区域对所述样本帧进行分类预测，获得所述样本帧的分类结果；

比对单元，用于比对所述样本帧的分类结果与所述样本帧所标注的类别信息；

调整单元，用于当不满足训练终止条件时，根据所述样本帧的分类结果与所述样本帧所标注的类别信息调整所述视频分类网络的参数，并再次触发所述提取子单元；

所述训练单元在满足所述训练终止条件时停止对所述视频分类网络的训练。

本申请第三方面提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的视频分类方法。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的视频分类方法。

本申请第五方面提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被一个或多个处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的视频分类方法。

由上可见，本发明中提取待分类视频的视频帧中目标对象的关键点，并基于提取的关键点确定该视频帧中至少一个关键区域，最后基于视频分类网络和确定的至少一个关键区域对待分类视频进行分类预测，得到该待分类视频的分类结果。由于是基于视频帧中目标对象的关键点确定关键区域，然后基于确定的关键区域对待分类视频进行分类预测，因此，能够过滤掉视频帧中的干扰与噪声，也即可减少视频帧的非关键区域对分类预测的干扰，从而增强视频分类的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1-a为本发明提供的一种视频分类方法一个实施例流程示意图；

图1-b为本发明提供的一种视频分类网络训练方法流程示意图

图2为本发明提供的一种视频分类方法另一个实施例流程示意图；

图3为本发明提供的一种视频分类装置一个实施例结构示意图；

图4为本发明提供的一种电子设备一个实施例结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供一种视频分类方法。如图1-a所示，本发明实施例中的视频分类方法包括：

步骤101、基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点；

本发明实施例中，待分类视频是指当前要确定分类结果的视频，其中，待分类视频可以是本地存储的视频，或者待分类视频也可以视频监控设备实时录制得到的视频，又或者，待分类视频也可以是网络数据库中存储的视频，此处不做限定。

在步骤101中，可以基于预先设置的对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点，其中，该对象特征提取网络可包含所要提取的关键点的信息，以便基于该对象提取网络可提取到相应的关键点。具体的，上述对象特征提取网络可以为一个多目标对象提取网络，也可以为多个对应于不同目标对象的提取网络，此处不作限定。上述目标对象可以为人、车，或更细粒度的人头、车头等具体的对象，具体的粒度要求可以根据实际需求设置，此处不作限定。

例如，可以预先设置一对象特征提取网络，该对象特征提取网络包含人脸的关键点(例如眼睛、鼻子、嘴巴、耳朵等位置上的关键点)的信息和手部的关键点(例如手指、手肘等位置上的关键点)的信息。则步骤101可以表现为：基于对象特征提取网络提取待分类视频的视频帧中与人脸和手部相关的关键点。

由于视频是由多张视频帧组成，因此，可以从待分类视频中抽取N张视频帧，并分别针对每张视频帧执行步骤101的处理，上述N可以为预设的不小于 2的自然数，具体的，N的取值可以根据实际需求进行设定。当然，本发明实施例中，也可以只对待分类视频中的一张视频帧执行步骤101的处理，此处不做限定。

步骤102、根据提取到的上述关键点确定上述视频帧中的至少一个关键区域；

在步骤102中，可以基于步骤101提取的关键点，从上述视频帧中确定一个或两个以上关键区域。具体地，可以基于步骤102提取的与同一部位相关的关键点，截取出视频帧中包含与该部位相关的所有关键点的关键区域，相应的，若提取的关键点涉及多个部位，则截取出多个关键区域，并可使得每个关键区域对应包含相应部位的所有关键点且不包含其它部位的关键点，也即，可使得每个关键区域包含至少一个提取的关键点且不同关键区域包含的关键点不重叠。当然，在其它实现方式中，不同关键区域也可以包含重叠的关键点。

可选的，步骤102包括：当从上述视频帧中提取到与人脸相关的关键点时，从上述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域，和/或，当从上述视频帧中提取到与手部相关的关键点时，从上述视频帧中确定一个或两个以上包含与同一手部相关的所有关键点的关键区域。

以从上述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域为例进行说明，设视频帧中包含人脸A和人脸B，通过步骤101 从视频帧中提取到与人脸A相关的关键点A1、A2、A3、A4、A5和A6，以及与人脸B相关的关键点B1、B2、B3、B4、B5和B6,则在步骤102中，可以根据提取的关键点从上述视频帧中确定出包含关键点A1、A2、A3、A4、A5和A6 的关键区域S1,以及包含关键点B1、B2、B3、B4、B5和B6的关键区域S2。具体地，所确定出的关键区域可以为矩形，则上述从上述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域可包括：基于提取到的与同一人脸相关的所有关键点的坐标位置，确定出上述所有关键点中的最大横坐标差和最大纵坐标差，基于上述所有关键点中的最大横坐标差和最大纵坐标差，以及上述所有关键点中的一关键点的坐标位置，确定出包含与该脸相关的所有关键点的关键区域，其中，该关键区域的中心点为上述一关键点，该关键区域的边长的大小分别等于上述最大横坐标差的第一倍数和上述最大纵坐标差的第二倍数，其中，上述第一倍数和上述第二倍数为预设值，且，上述第一倍数和上述第二倍数可以相等有也可以不等。以上述关键点A1、A2、A3、A4、 A5和A6为例进一步说明，设上述关键点A1、A2、A3、A4、A5和A6中的最大横坐标差为关键点A1与关键点A6的横坐标差(设大小为x1)，上述关键点A1、 A2、A3、A4、A5和A6中的最大纵坐标差为关键点A1与关键点A5的纵坐标差 (设大小为y2)，上述第一倍数和上述第二倍数均为1.5倍，则可以以关键点 A1为中心点，分别以x1的1.5倍大小和y2的1.5倍大小为边长确定出所要截取的关键区域，该关键区域为以关键点A1为中心点，边长分别为x1*1.5 以及y2*1.5。

步骤103、基于视频分类网络，根据上述至少一个关键区域对上述待分类视频进行分类预测，获得上述待分类视频的分类结果；

在步骤103中，可将步骤102确定出的每个关键区域单独输入该视频分类网络中进行分类预测，从而得到相应关键区域的分类结果，进一步，融合同一视频帧的各个关键区域的分类结果，确定该视频帧的分类结果。在一种应用场景，若基于待分类视频的一视频帧对该待分类视频进行视频分类，则可将确定出的该视频帧的分类结果直接作为该待分类视频的分类结果；在另一种应用场景中，若基于待分类视频的多张视频帧对该待分类视频进行视频分类，则可在获得多张视频帧的分类结果后，进一步融合多张视频帧的分类结果，得到该待分类视频的分类结果。

在一种应用场景中，上述关键区域的分类结果可以为：关键区域在各个分类下的分值。在此应用场景下，上述融合同一视频帧的各个关键区域的分类结果，确定该视频帧的分类结果可以包括：基于同一视频帧的各个关键区域的分类结果，计算该视频帧在各个分类下的分值，其中，该视频帧在各个分类下的分值等个该视频帧的各个关键区域在相应分类下的分值之和；基于该视频帧在各个分类下的分值和softmax函数，计算该视频帧在各个分类下的分类概率，其中，分类概率是指相应分类对应的softmax得分概率，当视频帧在某一分类下的分类概率越高，表明该视频帧的分类预测的结果越接近该分类。

或者，上述关键区域的分类结果也可以为关键区域的分类信息，该分类信息指示该关键区域所属的分类。在此应用场景下，上述融合同一视频帧的各个关键区域的分类结果，确定该视频帧的分类结果可以包括：将同一视频帧的各个关键区域的分类结果进行合并，得到上述各个关键区域所在的视频帧的分类结果。

本发明实施例中，上述视频分类网络可以基于预先分类好的样本视频训练得到。可选的，上述视频分类网络也可以由本发明实施例中的执行主体(例如视频分类装置)执行，则在步骤103之前，本发明实施例中的视频分类网络还可以包括：使用目标对象的样本帧，对视频分类网络进行训练，其中，上述样本帧也即样本视频的视频帧，上述目标对象的样本帧标注有目标对象的类别信息。具体的，如图1-b所示，上述使用目标对象的样本帧，对视频分类网络进行训练可以包括：

步骤A1、基于对象特征提取网络在目标对象的样本帧中提取目标对象的关键点；

具体的，对样本帧中目标对象的关键点的提取方式可以参照步骤101中描述的方式，此处不再赘述。

步骤A2、根据提取到的上述关键点确定上述样本帧中的至少一个关键区域；

在步骤A2中，根据步骤A1提取到的关键点确定上述样本帧中的至少一个关键区域。

具体的，步骤A2的具体实现方式可以参照步骤102中描述的方式，此处不再赘述。

步骤A3、基于视频分类网络，根据上述至少一个关键区域对所述样本帧进行分类预测，获得上述样本帧的分类结果；

具体的，步骤A3的具体实现方式可以参照步骤103中描述的方式，此处不再赘述。

步骤A4、比对上述样本帧的分类结果与上述样本帧所标注的类别信息；

在步骤A4中，由于样本帧已经预先标注了类别信息，因此，可将步骤A3 分类预测得到的样本帧的分类结果与该样本帧所标注的类别信息进行比对，当比对的结果为一致时，表明分类预测得到的样本帧的分类结果与预期所要得到的结果是一致的。

步骤A5、若满足训练终止条件，则停止训练；

在步骤A5中，预先设置训练终止条件，以便在满足该训练终止条件时，停止对上述视频分类网络的训练；

可选的，上述训练终止条件包括：第一条件和第二条件，上述第一条件为：样本帧的分类结果与该样本帧所标注的类别信息之间的差异在预设的差异范围内；上述第二条件为：本次对视频分类网络的训练中迭代的次数达到预设次数。在步骤A5中，当满足上述第一条件或上述第二条件时，停止对上述视频分类网络的训练。

步骤A6、若不满足训练终止条件，则根据上述样本帧的分类结果与上述述样本帧所标注的类别信息调整上述视频分类网络的参数；

在步骤A6中，根据上述样本帧的分类结果与上述述样本帧所标注的类别信息调整上述视频分类网络的参数，并返回步骤A1。

进一步，在步骤103之后，还可以基于步骤103得到的分类结果为上述待分类视频添加相应的视频标签；或者，也可以基于步骤103得到的分类结果进行异常行为的检测；或者，也可以存储步骤103得到的分类结果以便调用，此处不做限定。

需要说明的是，图1-b所示的视频分类网络训练流程仅是一种示意，在实际应用中，也可以采用其它方式对视频分类网络进行训练，此处不做限定。可选的，上述视频分类网络可以为以Inception-BN网络为基础架构的深度卷积神经网络。当然，上述视频分类网络可以为以其它网络为基础架构的深度卷积神经网络(例如以ResNET网络为基础架构的深度卷积神经网络)或其它类型的网络，此处不作限定。

需要说明的是，本申请实施例中的视频分类方法可以应用于视频分类装置中，该视频分类装置可以为独立的设备，或者也可以集成在电子设备(例如手机、个人计算机、笔记本、平板电脑等)中。可选的，集成该视频分类装置的电子设备所搭载的操作系统可以为ios系统、android系统、windows系统或其它操作系统，此处不作限定。

由于传统的视频分类方法是选取视频帧的全局特征来表示视频并进行分类预测，而视频帧中往往包含大量的无关信息，因此，传统的视频分类方法容易受到视频帧中无关信息的干扰，从而影响分类预设结果的准确性。而本发明中提取待分类视频的视频帧中目标对象的关键点，并基于提取的关键点确定该视频帧中至少一个关键区域，最后基于视频分类网络和确定的至少一个关键区域对待分类视频进行分类预测，得到该待分类视频的分类结果。由于是基于视频帧中目标对象的关键点确定关键区域，然后基于确定的关键区域对待分类视频进行分类预测，因此，能够过滤掉视频帧中的干扰与噪声，也即可减少视频帧的非关键区域对分类预测的干扰，从而增强视频分类的鲁棒性。

实施例二

实施例二与实施例一的区别在于，实施例二基于待分类视频的多张视频帧进行待分类视频的分类预测。具体的，如图2所示，本发明实施例中的视频分类方法包括：

步骤201、基于对象特征提取网络，分别在待分类视频的N张视频帧中提取目标对象的关键点；

由于视频是由多张视频帧组成，因此，可以先从待分类视频中抽取N张视频帧，并针对抽取的N张视频帧执行步骤201。上述N可以为预设的不小于2 的自然数，具体的，N的取值可以根据实际需求进行设定。

可选的，上述从待分类视频中抽取N张视频帧可以为从待分类视频中随机抽取N张视频帧，或者，上述从待分类视频中抽取N张视频帧可以为：从待分类视频中的预设时间帧开始抽取N张连续的视频帧，例如，设N为100,预设时间帧为第10秒，则从待分类视频中的第10秒开始抽取100张连续的视频帧。

在步骤201中，针对上述N张视频帧中的每张视频帧，基于对象特征提取网络，分别从视频帧中提取目标对象的关键点。具体的，基于对象特征提取网络，分别从视频帧中提取目标对象的关键点的过程可以参照图1-a所示实施例中步骤101的描述，此处不再赘述。

步骤202、根据提取到的上述关键点确定上述视频帧中的至少一个关键区域；

在步骤202中，针对上述N张视频帧中的每张视频帧，根据步骤201提取到的视频帧中的关键点，确定该视频帧中的至少一个关键区域。具体的，根据提取到的视频帧中的关键点确定该视频帧中的至少一个关键区域的过程可以参照图1-a所示实施例中步骤102的描述，此处不再赘述。

步骤203、基于视频分类网络，分别根据每张视频帧中的关键区域对上述每张视频帧进行分类预测，获得上述N张视频帧的分类结果；

在步骤203中，可针对上述N张视频帧中的每张视频帧进行如下处理，以获得上述N张视频帧的分类结果：将视频帧中的每个关键区域单独输入该视频分类网络中进行分类预测，从而得到相应关键区域的分类结果，进一步，融合同一视频帧的各个关键区域的分类结果，确定该视频帧的分类结果。

进一步，也可以先对视频帧整体进行分类预测，之后基于对视频帧中各个关键区域的分类结果更新视频帧的分类结果，具体的，步骤203可以包括：基于上述视频分类网络，分别对上述N张视频帧进行分类预测，得到各张视频帧的分类结果(也即，分别将上述N张视频帧中的每张视频帧输入上述视频分类网络进行分类预测，得到各张视频帧的分类结果)；基于同一视频帧的各个关键区域的分类结果，对相应视频帧的分类结果进行更新。

需要说明的是，上述视频分类网络可以基于预先分类好的样本视频训练得到，该视频分类网络的训练方式可以参照图1-b所示实施例中的描述，或者，该视频分类网络也可以参照其它已有的训练方法实现。具体的，上述视频分类网络可以为以Inception-BN网络为基础架构的深度卷积神经网络。当然，上述视频分类网络可以为以其它网络为基础架构的深度卷积神经网络(例如以 ResNET网络为基础架构的深度卷积神经网络)或其它类型的网络，此处不作限定。此处不做限定。

步骤204、对上述N张视频帧的分类结果进行融合，得到上述待分类视频的分类结果；

在一种应用场景中，当步骤203获取到的视频帧的分类结果为各视频帧在各个分类下的分类概率时，上述对上述N张视频帧的分类结果进行融合，得到上述待分类视频的分类结果可以包括：基于各视频帧在各个分类下的分类概率，计算待分类视频在各个分类的分配概率；将待分类视频在各个分类的平均分配概率作为上述待分类视频的分类结果，其中，待分类视频在各个分类的分配概率等于该待分类视频的各个视频帧在相应分类下的分类概率的平均值。举例说明，设上述N为2,且通过步骤203得到待分类视频的第n1视频帧在第一分类和第二分类下的分类概率分别为P1_n1和在P2_n1，待分类视频的第n2视频帧在第一分类和第二分类下的分类概率分别为P1_n2和在P2_n2，则可以计算待分类视频在第一分类和第二分类的平均分配概率分别为：(P1_n1+P2_n1)/2和(P1_n2+ P2_n2)/2。

或者，在另一种应用场景中，当步骤203获取到的视频帧的分类结果为各视频帧的分类信息时，上述对上述N张视频帧的分类结果进行融合，得到上述待分类视频的分类结果可以包括：将上述待分类视频的各个视频帧的分类信息进行合并，得到上述待分类视频的分类结果；或者，基于上述待分类视频的各个视频帧的分类信息，选取出现次数为前M大的分类所对应的分类信息作为上述待分类视频的分类结果。

进一步，在步骤204之后，还可以基于步骤204得到的分类结果为上述待分类视频添加相应的视频标签；或者，也可以基于步骤204得到的分类结果进行异常行为的检测；或者，也可以存储步骤204得到的分类结果以便调用，此处不做限定。

由于传统的视频分类方法是选取视频帧的全局特征来表示视频并进行分类预测，而视频帧中往往包含大量的无关信息，因此，传统的视频分类方法容易受到视频帧中无关信息的干扰，从而影响分类预设结果的准确性。而本发明中通过对待分类视频的各个视频帧进行关键区域的确定和分类预测，并基于视频帧的各个关键区域的分类结果得到相应视频帧的分类结果，最后基于待分类视频的各个视频帧的分类结果确定该待分类视频的分类结果。由于是基于视频帧中的关键区域进行分类预测，然后再融合视频帧的各个关键区域的分类结果得到视频帧的分类结果，因此，能够过滤掉视频帧中的干扰与噪声，也即可减少视频帧的非关键区域对分类预测的干扰，从而增强视频分类的鲁棒性。

实施例三

本发明实例提供一种视频分类装置，如图3所示，本发明实施例中的视频分类装置300包括：提取单元301、确定单元302和分类预测单元303。

其中，提取单元301用于基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点；确定单元302用于根据提取单元301提取到的所述关键点确定所述视频帧中的至少一个关键区域；分类预测单元303用于基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测，获得所述待分类视频的分类结果。

可选的，提取单元301具体用于：基于对象特征提取网络，分别在待分类视频的N张视频帧中提取目标对象的关键点，所述N不小于2。分类预测单元 303包括：视频帧分类预测子单元，用于基于视频分类网络，分别根据每张视频帧中的关键区域对所述每张视频帧进行分类预测，获得所述N张视频帧的分类结果；融合单元，用于对所述N张视频帧的分类结果进行融合，得到所述待分类视频的分类结果。

可选的，所述视频帧分类预测子单元具体用于：

可选的，确定单元302具体用于：

当提取单元301从所述视频帧中提取到与人脸相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一人脸相关的所有关键点的关键区域；

和/或，

当提取单元301从所述视频帧中提取到与手部相关的关键点时，从所述视频帧中确定一个或两个以上包含与同一手部相关的所有关键点的关键区域。

可选的，本发明实施例中的视频分类装置包括：

可选的，所述训练单元包括：

需要说明的是，本申请实施例中的视频分类装置可以为独立的设备，或者也可以集成在电子设备(例如手机、个人计算机、笔记本、平板电脑等)中。可选的，集成该视频分类装置的电子设备所搭载的操作系统可以为ios系统、 android系统、windows系统或其它操作系统，此处不作限定。

实施例四

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机 (PC)、平板电脑、服务器等。该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，并且，上述处理器执行上述计算机程序时可实现如图1-a、图1-b或图2所对应的实施例中记载的方法步骤。

下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图：如图4所示，电子设备400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU) 401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412 可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器402和/或随机访问存储器430中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作。

此外，在RAM403中，还可存储有装置操作所需的各种程序和数据。CPU401、 ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402 为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O) 接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如 GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种视频分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述基于对象特征提取网络，在待分类视频的视频帧中提取目标对象的关键点，包括：

3.根据权利要求2所述的视频分类方法，其特征在于，所述基于视频分类网络，分别根据每张视频帧中的关键区域对所述每张视频帧进行分类预测，获得所述N张视频帧的分类结果包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据提取到的所述关键点确定所述视频帧中的至少一个关键区域，包括：

和/或，

5.根据权利要求1至3任一项所述的方法，其特征在于，所述基于视频分类网络，根据所述至少一个关键区域对所述待分类视频进行分类预测之前，还包括：

6.一种视频分类装置，其特征在于，包括：

7.根据权利要求6所述的视频分类装置，其特征在于，所述提取单元具体用于：基于对象特征提取网络，分别在待分类视频的N张视频帧中提取目标对象的关键点，所述N不小于2；

所述分类预测单元包括：

8.根据权利要求7所述的视频分类装置，其特征在于，所述视频帧分类预测子单元具体用于：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。