CN108229300B

CN108229300B - 视频分类方法、装置、计算机可读存储介质和电子设备

Info

Publication number: CN108229300B
Application number: CN201711064631.XA
Authority: CN
Inventors: 孙书洋; 旷章辉; 张伟
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-08-11
Anticipated expiration: 2037-11-02
Also published as: CN108229300A

Abstract

本发明实施例提供一种视频分类方法、装置、计算机可读存储介质和电子设备。视频分类方法，包括：获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。由此能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合，更为准确地从视频检测到动作分类。

Description

视频分类方法、装置、计算机可读存储介质和电子设备

技术领域

本发明实施例涉及人工智能技术，尤其涉及一种视频分类方法、装置、计算机可读存储介质和电子设备。

背景技术

用于视频分类的模型建立是计算机视觉以及智能视频分析领域的重要问题。在诸如视频自动标记、视频行为识别监控、人群行为分析以及异常行为检测等应用中，均使用视频分类技术。

视频分类涉及从视频序列检测运动信息。在传统的运动检测技术中，可通过提取稠密光流、RGB差值图等方法来获取视频的运动信息。但是，对于提取稠密光流来说，由于光流的计算速度很慢，通过该方法对大规模数据集进行训练，对于实时性有要求的场景来说是不现实的。另一方面，使用RGB差值图的方法具有较快的计算速度，但是RGB差值图包含的运动信息相对有限，并且在这些有限的信息内还会包含大量的无关噪声。因此，目前使用RGB差值图进行视频分类预测的效果也不理想。

发明内容

本发明实施例的目的在于，提供一种视频分类技术。

根据本发明的第一方面，提供一种视频分类方法，包括：获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

可选地，所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，进行以下处理：根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可选地，所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据。相应地，所述根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据，包括：对从所述第一视频帧提取的所述特征数据进行卷积降维，对从所述第二视频帧提取的所述特征数据进行卷积降维；将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减，获取特征时间梯度数据；通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。

可选地，所述当前尺度的值小于所述当前尺度的前一尺度的值。

可选地，所述方法还包括：通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

可选地，所述获取所述第一视频帧中所述目标对象的帧内动作分类数据，包括：通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

可选地，所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：通过用于视频帧间动作分类的第二神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。

可选地，所述第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块。相应地，所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，进行以下处理：通过对应于当前尺度的帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可选地，所述根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，包括：通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

可选地，所述第一神经网络模型具有多个复合卷积模块和分类器模块。

可选地，所述帧间动作检测子网模块包括具有卷积层和残差网络模块。

根据本发明的第二方面，提供一种视频分类装置，包括：帧内动作分类模块，用于获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；帧间动作分类模块，用于根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；动作分类确定模块，用于根据所述帧内动作分类模块获取的帧内动作分类数据和所述帧间动作分类模块获取的帧间动作分类数据，确定所述目标对象的动作分类。

可选地，所述帧间动作分类模块在针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据进行处理时，包括：单尺度运动特征获取单元，用于根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；运动特征融合单元，用于将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；

尺度动作分类单元，用于根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可选地，所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据。相应地，所述单尺度运动特征获取单元包括：降维子单元，用于对从所述第一视频帧提取的所述特征数据进行卷积降维，对从所述第二视频帧提取的所述特征数据进行卷积降维；特征时间梯度获取子单元，用于将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减，获取特征时间梯度数据；特征空间梯度获取子单元，用于通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。

可选地，所述装置还包括：尺度特征数据获取模块，用于通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

可选地，所述帧内动作分类模块用于通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

可选地，所述帧间动作分类模块用于：通过用于视频帧间动作分类的第二神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。

可选地，所述第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块；所述帧间动作分类模块用于，针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，通过对应于当前尺度的帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可选地，所述动作分类确定模块用于通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

根据本发明的第三方面，提供一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一视频分类方法相应的操作。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一视频分类方法的步骤。

根据本发明的第五方面，提供一种计算机程序，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一视频分类方法的步骤。

根据本发明实施例提供的视频分类方案，对于视频帧序列的任一视频帧，从该视频帧检测目标对象的帧内动作分类数据；根据从该视频帧与其之前的视频帧提取各自的至少一个尺度的特征数据，来检测目标对象的帧间动作分类数据。提取的至少一个尺度的特征数据表征图像的细节表达和/或语义特征的数据，基于这些特征数据检测到更为准确的帧间动作分类数据。此后，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，由此能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合，更为准确地从视频检测到动作分类。

附图说明

图1是示出根据本发明实施例一的视频分类方法的流程图；

图2是示出根据本发明实施例二的步骤S120的一种示例性处理的流程图；

图3是示出根据本发明实施例三的前述步骤S210的一种示例性处理的流程图；

图4是示出根据本发明实施例四的视频分类方法的流程图；

图5是示出在步骤S430针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据的一种示例性处理的示意图；

图6是示出根据本发明实施例四的视频分类方法的处理的示意图；

图7是示出根据本发明实施例六的视频分类装置的逻辑框图；

图8是示出图7中的帧间动作分类模块720的示例性逻辑框图；

图9是示出图8中的单尺度运动特征获取单元7201的示例性逻辑框图；

图10是示出根据本发明实施例九的视频分类装置的逻辑框图；

图11是示出根据本发明实施例十一的电子设备的结构示意图。

具体实施方式

在本申请中，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

下面将结合附图详细描述本发明实施例的示例性实施例。

实施例一

图1是示出根据本发明实施例一的视频分类方法的流程图。

参照图1，在步骤S110，获取第一视频帧中目标对象的帧内动作分类数据，第一视频帧为视频帧序列中含有目标对象的视频帧。

这里，含有目标对象的视频帧序列是指拍摄有目标对象的具有时序的视频图像的序列，目标对象可以是例如行人、车辆、动物、飞行物等具有多种动作形态的物体对象。

根据本发明实施例一的视频分类方法用于从视频帧序列检测目标对象的动作。这里的第一视频帧可以是视频帧序列中的任一视频帧。

可通过任何适用的用于从静态图像检测物体动作分类的图像分析技术，从第一视频帧检测目标对象的动作分类(如行走、奔跑、跳跃等)。这里，将从单个视频帧检测到的目标对象的动作分类的数据称为帧内动作分类数据。

这里，获取的帧内动作分类数据可以是从单个视频帧检测到的目标对象的一个动作分类的数据，也可以是多个动作分类的数据，例如，动作分类以及相应的预测准确概率的数据等。

在后续实施例中将描述从单个视频帧检测目标对象的动作分类的示例性处理，在此不予赘述。

在步骤S120，根据从所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，第二视频帧为该视频帧序列中第一视频帧之前的视频帧。

这里，第二视频帧是在前述视频帧序列中从时序上位于第一视频帧之前的视频帧，例如，前一视频帧、第一视频帧之前的第二个视频帧或第N个视频帧。

从所述第一视频帧以及其之前的第二视频帧各自提取的至少一个尺度的特征数据是指，分别从第一视频帧和第二视频帧提取的针对至少一个尺度分辨率的特征数据，其中，该特征数据可以为：图像的纹理特征数据、图像的色彩特征数据、物体的形状特征数据，或者，从图像提取的特征向量矩阵、从图像获取的特征图等。

这里的尺度分辨率是指，在对图像进行特征提取的过程中对特征数据进行下采样处理的尺度。示例性地，根据预设的K个尺度分辨率，对图像进行K个尺度分辨率的变换，分别获取K个尺度分辨率的特征数据，其中，K为对图像进行下采样的预设尺度的个数。

从图像(第一视频帧和第二视频帧)提取的针对至少一个尺度分辨率的特征数据，可表征图像不同程度的细节特征和/或整体语义特征。例如，通过大尺度分辨率的特征数据可获得表达图像的细节特征(如纹理表达、结构表达等)的信息；通过小尺度分辨率的特征数据可获得表达图像的语义特征(如图像的前景和背景、物体的形状特征等)。

可通过适用的图像特征提取方法从第一视频帧提取至少一个尺度的特征数据，从第二视频帧提取至少一个尺度的特征数据。

在该步骤，通过使用从第一视频帧和第二视频帧分别提取的细节特征和/或语义特征的数据，提取目标对象的运动特征，并确定目标对象的动作分类，从而获取述第一视频帧中所述目标对象的帧间动作分类数据。这里，将根据两个具有时序关系的视频帧确定的目标对象的动作分类的数据称为帧内动作分类数据。

同理，获取的帧间动作分类数据可以是根据第一视频帧和第二视频帧检测到的目标对象的一个动作分类的数据，也可以是多个动作分类的数据，例如，动作分类以及相应的预测准确概率的数据等。

在此可以看出，可按照任何顺序执行步骤S110和S120，或并行地执行步骤S110和S120。

此后，在步骤S130，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

如前所述，已从单个视频帧检测到目标对象的帧内动作分类数据(步骤S110)，并已根据第一视频帧和第二视频帧检测到目标对象的帧间动作分类数据(步骤S120)。在此，结合前述两个动作分类数据来确定所述目标对象的动作分类。

例如，前述帧内动作分类数据可包括针对各个动作分类的预测准确概率的数据，前述帧间动作分类数据也可包括针对各个动作分类的预测准确概率的数据。可将各个动作分类的预测准确概率的数据相加获得总综合预测概率值，并且将综合预测准确概率值最高的动作分类确定为目标对象的动作分类。

这里仅描述步骤S130的一种示例性处理方法。本领域普通技术人员可以理解，可通过任一可行的结合分析方法，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，而不限于此。

根据本发明实施例一的视频分类方法，对于视频帧序列的任一视频帧，从该视频帧检测目标对象的帧内动作分类数据；根据从该视频帧与其之前的视频帧提取各自的至少一个尺度的特征数据，来检测目标对象的帧间动作分类数据。提取的至少一个尺度的特征数据表征图像的细节表达和/或语义特征的数据，基于这些特征数据检测到更为准确的帧间动作分类数据。此后，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，由此能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合，更为准确地从视频检测到动作分类。

实施例二

图2是示出根据本发明实施例二的步骤S120的一种示例性处理的流程图。

参照图2，针对从所述第一视频帧提取的任一/每一相应尺度的特征数据以及从之前的第二视频帧提取的任一/每一相应尺度的特征数据，执行以下步骤S210～S230的处理。在此，将该任一/每一相应尺度称为当前尺度。

具体地，首先，在步骤S210，根据从所述第一视频帧提取的当前尺度的特征数据和从所述第二视频帧提取的当前尺度的所述特征数据，获取当前尺度的单尺度运动特征数据。

针对同一尺度提取的特征数据可表达同等程度的特征表示，因此，可根据从所述第一视频帧提取的特征数据和从所述第二视频帧提取的特征数据，获取到该两个视频帧之间的单尺度运动特征数据。该单尺度运动特征数据表征相对稀疏的运动信息。

此后，在步骤S220，将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据。

根据本发明的总体发明构思，在根据多个尺度的特征数据进行融合的情况下，将任一尺度的单尺度运动特征数据与其他已经过融合的特征数据进行融合，以获取该尺度的尺度融合运动特征数据。因此，这里的“已处理尺度”为已经完成尺度融合的运动特征数据。

具体地，如果在步骤S120，根据所述第一视频帧的仅一个尺度的特征数据以及第二视频帧的仅一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，则在步骤S220，已处理尺度的尺度融合运动特征数据为空或零，则获得的尺度融合运动特征数据与单尺度运动特征数据相同。

另一方面，如果在步骤S120，根据所述第一视频帧的两个尺度或更多尺度的特征数据以及第二视频帧的两个尺度或更多尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，则从处理顺序上，分为两种情况。如果当前尺度不是首个尺度，即该当前尺度是中间尺度或最后一个尺度，则将所述当前尺度的单尺度运动特征数据与前一尺度的尺度融合运动特征数据进行融合，生成所述当前尺度的尺度融合运动特征数据；另一方面，如果当前尺度是首个尺度，在其之前无可进行融合的单尺度运动特征数据，则将当前尺度的单尺度运动特征数据作为其尺度融合运动特征数据。

通过步骤S220的处理，对获得的运动信息进行精炼，可获得融合了各个尺度的运动信息的运动特征数据，以结合细节和/或语义特征进行后续的视频分类。

在步骤S230，根据当前尺度的尺度融合运动特征数据，获取当前尺度的帧间动作分类数据。

通过在至少一个尺度生成融合了所有尺度的运动信息的尺度融合运动特征数据，能够结合其包含的细节和/或语义特征，可在至少一个尺度获得结合细节和/或语义特征的目标对象的帧间动作分类数据，以用于最终确定目标对象的动作分类。

这里，可根据尺度从大到小的顺序或者尺度从小到大的顺序执行步骤S210～S230的处理。根据本发明的可选实施例，根据尺度从大到小的顺序执行步骤S210～S230的处理，即所述当前尺度的值小于所述当前尺度的前一尺度的值，以通过逐步降低尺度的特征数据获取帧间动作分类数据。

实施例三

图3是示出根据本发明实施例三的前述步骤S210的一种示例性处理的流程图。

根据实施例三，单尺度运动特征数据包括尺度的特征时间梯度数据和特征时间梯度数据。

参照图3，在步骤S310，对从第一视频帧提取的特征数据进行卷积降维，对从第二视频帧提取的特征数据进行卷积降维。

例如，可通过对从第一视频帧的特征数据进行1×1卷积，对第一视频正的特征数据进行降维；同理，可通过对从第二视频帧的特征数据进行1×1卷积，对第二视频帧的特征数据进行降维。

在步骤S320，将经过卷积降维的第一视频帧的特征数据和经过卷积降维的第二视频帧的所述特征数据相减，获取特征时间梯度数据，该特征时间梯度数据可表征第一视频帧和第二视频帧之间在时序上的运动特征。

在步骤S330，通过边缘算子计算经过卷积降维的第一视频帧的特征数据和经过卷积降维的第二视频帧之间的特征空间梯度数据。

具体地，可通过例如索贝尔(Sobel)算子、拉普拉斯(Laplace)算子、肯尼(Canny)算子等的边缘算子来执行步骤S320的计算，以获得特征数据之间的特征空间梯度数据，该特征空间梯度数据表征第一视频帧和第二视频帧之间在空间上的运动特征。

通过前述步骤S310～S330的处理，能够获取从所述第一视频帧提取的所述特征数据和从所述第二视频帧提取的所述特征数据之间的特征时间梯度数据和特征空间梯度数据，获取当前尺度的单尺度运动特征数据，从而可提取更为精确的单尺度运动特征数据。

实施例四

图4是示出根据本发明实施例四的视频分类方法的流程图。

参照图4，在步骤S410，通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

具体地，第一神经网络模型可具有用于特征提取的多个特征提取层，例如，多个卷积层和至少一个池化层，或者，多个复合卷积模块，每个复合卷积模块通常包括多个卷积层和池化层。

在该步骤，将第一视频帧输入第一神经网络模型，并且在各个卷积层的输出端以及池化层的输出端获得对应于相应尺度的第一视频帧的特征数据；同理，将第二视频帧输入第一神经网络模型，并且在各个卷积层的输出端以及池化层的输出端获得对应于相应尺度的第二视频帧的特征数据。或者，将第一视频帧输入第一神经网络模型，并且在各个复合卷积模块中的卷积层的输出端以及池化层的输出端获得对应于相应尺度的第一视频帧的特征数据；同理，将第二视频帧输入第一神经网络模型，并且在各个复合卷积模块中的卷积层的输出端以及池化层的输出端获得对应于相应尺度的第二视频帧的特征数据。

在步骤S420，通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

具体地，可在第一神经网络模型的特征提取层之后设置分类器模块，用于根据至少一个尺度的特征数据分别获取第一视频帧中目标对象的帧内动作分类数据。

在步骤S430，通过用于视频帧间动作分类的第二神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。

具体地，根据本发明的一种可选实施方式，第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块。

在该步骤，针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，通过对应于当前尺度的帧间动作检测子网模块，执行以下操作处理。

首先，通过该帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据。具体地，帧间动作检测子网模块可将从对应于当前尺寸的卷积层的输出端的特征数据进行串接，然后对经过串接的当前尺寸的特征数据进行例如步骤S210或步骤S310～S330的处理，获得当前尺度的单尺度运动特征数据。

此后，通过该帧间动作检测子网模块，进行例如步骤S220的处理：将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据。

再后，通过该帧间动作检测子网模块，进行例如步骤S230的处理：根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可例如，通过在帧间动作检测子网模块中设置残差网络模块来执行步骤S220和步骤S230的处理。

图5是示出在步骤S430针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据的一种示例性处理的示意图。

参照图5，首先，通过设置在帧间动作检测子网模块中的1×1卷积层对第一视频帧的当前尺度的特征数据F1进行卷积降维，并且通过该1×1卷积层对第二视频帧的当前尺度的特征数据F2进行卷积降维；其次，将经过卷积降维的第一视频帧的特征数据和经过卷积降维的第二视频帧的所述特征数据相减，获取特征时间梯度数据TG，并且通过边缘算子计算经过卷积降维的第一视频帧的特征数据和经过卷积降维的第二视频帧之间的特征空间梯度数据SG，从而获得第一视频帧的当前尺度的单尺度运动特征数据。其次，通过设置在帧间动作检测子网模块中的残差网络模块RM-1～RM-n，将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据IFMF进行融合，获取所述当前尺度的尺度融合运动特征数据OFMF，并且根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

在完成步骤S430的处理后，执行步骤S440。在步骤S440，通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

具体地，通过第三神经网络模型对从步骤S420获得的各个帧内动作分类数据和从步骤S430获得的各个帧间动作分类数据进行融合，例如，对各个动作分类的预测准确概率值进行求和、平均或加权平均等，将经过融合得到的预测准确概率值最高的动作分类确定为目标对象的动作分类。

图6是示出根据本发明实施例四的视频分类方法的处理的示意图。

由于第一神经网络模型和第二神经网络模型之间存在数据关联，因此，为了便于说明，在图6中示出的多个标注为第一神经网络模型610的方框均同属于同一网络模型(第一神经网络模型610)，在图6中示出的多个标注为第二神经网络模型620的方框均同属于同一网络模型(第二神经网络模型620)。

参照图6，通过用于特征提取的第一神经网络模型610，执行步骤S410和S420，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据，并且根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。此后，通过用于视频帧间动作分类的第二神经网络模型620，根据从第一神经网络模型610获得的所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。最后，将各个帧内动作分类数据和帧间动作分类数据输入第三神经网络模型630，确定所述目标对象的动作分类。

可将第一神经网络模型610、第二神经网络模型620和第三神经网络模型630集成在一个总的神经网络系统中，也可独立地训练或使用其中的任一个或两个。

根据本发明实施例四的视频分类方法，通过用于特征提取的第一神经网络模型、用于视频帧间动作分类的第二神经网络模型和用于视频动作分类的第三神经网络模型，根据第一视频帧和第二视频帧，准确地确定所述目标对象的动作分类，由此，能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合，通过相互关联的神经网络模型，更为准确地从视频检测到动作分类。

实施例五

以下将具体描述用于实施例四的第一神经网络模型、第二神经网络模型和第三神经网络模型的示例性训练方法。

根据本发明的一种可选实施方式，可通过含有目标对象的样本视频帧序列对第一神经网络模型、第二神经网络模型和第三神经网络模型进行训练，其中，样本视频帧序列中的每个样本视频帧含有动作分类的标注数据。

可使用前述样本视频帧序列分别独立地训练第一神经网络模型、第二神经网络模型和第三神经网络模型，也可以关联地训练该三个神经网络模型。

根据本发明的示例性实施方式，可分阶段地训练这三个神经网络模型。在第一训练阶段，通过已有的任何训练方法训练获得第一神经网络。在第二训练阶段，将第一神经网络保持不变，使用样本视频帧序列来学习第二神经网络模型的网络参数和第三神经网络模型的网络参数。在第三训练阶段，对第一神经网络模型、第二神经网络模型和第三神经网络模型进行整体微调，直至全部第一神经网络模型、第二神经网络模型和第三神经网络收敛为止。

实施例六

图7是示出根据本发明实施例六的视频分类装置的逻辑框图。

参照图7，根据本发明实施例六的视频分类装置包括帧内动作分类模块710、帧间动作分类模块720和动作分类确定模块730。

帧内动作分类模块710用于获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧。

帧间动作分类模块720用于根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧。

动作分类确定模块730用于根据帧内动作分类模块710获取的帧内动作分类数据和帧间动作分类模块720获取的帧间动作分类数据，确定所述目标对象的动作分类。

本实施例的视频分类装置用于实现前述方法实施例一中相应的视频分类方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例七

图8是示出图7中的帧间动作分类模块720的示例性逻辑框图。

参照图8，帧间动作分类模块720包括单尺度运动特征获取单元7201、运动特征融合单元7203和尺度动作分类单元7205。

针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，帧间动作分类模块720通过其包括前述模块执行进行相应的处理。

单尺度运动特征获取单元7201用于根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据。

运动特征融合单元7203用于将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据。

尺度动作分类单元7205用于根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

本实施例的帧间动作分类模块720用于实现前述实施例二中相应的步骤S120的处理，并具有实施例二相应的有益效果，在此不再赘述。

实施例八

图9是示出图8中的单尺度运动特征获取单元7201的示例性逻辑框图。

根据本发明的实施例八，所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据。

参照图9，单尺度运动特征获取单元7201包括降维子单元72011、特征时间梯度获取子单元72013和特征空间梯度获取子单元72015。

降维子单元72011用于对从所述第一视频帧提取的所述特征数据进行卷积降维，对从所述第二视频帧提取的所述特征数据进行卷积降维。

特征时间梯度获取子单元72013用于将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减，获取特征时间梯度数据。

特征空间梯度获取子单元72015用于通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。

本实施例的单尺度运动特征获取单7201用于实现前述实施例三中相应的步骤S210的处理，并具有实施例三的有益效果，在此不再赘述。

实施例九

图10是示出根据本发明实施例九的视频分类装置的逻辑框图。

参照图10，根据本发明实施例九的视频分类装置除了包括帧内动作分类模块710、帧间动作分类模块720和动作分类确定模块730以外，还包括尺度特征数据获取模块740。

尺度特征数据获取模块740用于通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

可选地，帧内动作分类模块710用于通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

可选地，帧间动作分类模块720用于通过用于视频帧间动作分类的第二神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。

可选地，所述第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块。

帧间动作分类模块720用于针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，通过对应于当前尺度的帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

可选地，动作分类确定模块730用于通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

实施例的视频分类装置用于实现前述方法实施例一～四中相应的视频分类方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例十

本发明实施例十提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述实施例一～实施例四所述的视频分类方法的步骤，并具有相应的实施例的有益效果，在此不再赘述。

本发明实施例十四还提供一种计算机程序，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现前述实施例一～实施例四所述的视频分类方法的步骤，并具有相应的实施例的有益效果，在此不再赘述。

实施例十一

本发明实施例提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1100的结构示意图。

如图11所示，电子设备1100包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1101，和/或一个或多个图像处理器(GPU)1113等，处理器可以根据存储在只读存储器(ROM)1102中的可执行指令或者从存储部分1108加载到随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件1112和通信接口1109。其中，通信组件1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1109经由诸如因特网的网络执行通信处理。

处理器可与只读存储器1102和/或随机访问存储器1103中通信以执行可执行指令，通过总线1104与通信组件1112相连、并经通信组件1112与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

此外，在RAM 1103中，还可存储有装置操作所需的各种程序和数据。CPU 1101、ROM1102以及RAM 1103通过总线1104彼此相连。在有RAM 1103的情况下，ROM 1102为可选模块。RAM 1103存储可执行指令，或在运行时向ROM 1102中写入可执行指令，可执行指令使处理器1101执行上述通信方法对应的操作。输入/输出(I/O)接口1105也连接至总线1104。通信组件1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1109。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

需要说明的是，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信组件1112可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，用于获取第一视频帧中目标对象的帧内动作分类数据的可执行代码，所述第一视频帧为视频帧序列中含有目标对象的视频帧；用于根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据的可执行代码。，所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；用于根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类的可执行代码。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例十一提供的电子设备，对于视频帧序列的任一视频帧，从该视频帧检测目标对象的帧内动作分类数据；根据从该视频帧与其之前的视频帧提取各自的至少一个尺度的特征数据，来检测目标对象的帧间动作分类数据。提取的至少一个尺度的特征数据表征图像的细节表达和/或语义特征的数据，基于这些特征数据检测到更为准确的帧间动作分类数据。此后，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，由此能够将基于单个视频帧检测的静态的动作分类数据和基于两个视频帧检测到的动态的动作分类数据进行融合，更为准确地从视频检测到动作分类。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种视频分类方法，包括：

获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；

根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；

根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，

其中，所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：

针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，进行以下处理：

根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据，所述当前尺度的值小于所述当前尺度的前一尺度的值；

将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；

根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

2.根据权利要求1所述的视频分类方法，其中，所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据；

所述根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据，包括：

对从所述第一视频帧提取的所述特征数据进行卷积降维，对从所述第二视频帧提取的所述特征数据进行卷积降维；

将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减，获取特征时间梯度数据；

通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。

3.根据权利要求1所述的视频分类方法，其中，所述方法还包括：

通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

4.根据权利要求3所述的视频分类方法，其中，所述获取所述第一视频帧中所述目标对象的帧内动作分类数据，包括：

通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

5.根据权利要求4所述的视频分类方法，其中，所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：

通过用于视频帧间动作分类的第二神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据。

6.根据权利要求5所述的视频分类方法，其中，所述第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块；

所述根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据，包括：

通过对应于当前尺度的帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

7.根据权利要求1~6中任一项所述的视频分类方法，其中，所述根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类，包括：

通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

8.根据权利要求4~6中任一项所述的视频分类方法，其中，所述第一神经网络模型具有多个复合卷积模块和分类器模块。

9.根据权利要求6所述的视频分类方法，其中，所述帧间动作检测子网模块包括具有卷积层和残差网络模块。

10.一种视频分类装置，包括：

帧内动作分类模块，用于获取第一视频帧中目标对象的帧内动作分类数据，所述第一视频帧为视频帧序列中含有目标对象的视频帧；

帧间动作分类模块，用于根据所述第一视频帧的至少一个尺度的特征数据以及第二视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧间动作分类数据；所述第二视频帧为所述视频帧序列中所述第一视频帧之前的视频帧；

动作分类确定模块，用于根据所述帧内动作分类模块获取的帧内动作分类数据和所述帧间动作分类模块获取的帧间动作分类数据，确定所述目标对象的动作分类，

其中，所述帧间动作分类模块在针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据进行处理时，包括：

单尺度运动特征获取单元，用于根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据，所述当前尺度的值小于所述当前尺度的前一尺度的值；

运动特征融合单元，用于将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；

11.根据权利要求10所述的装置，其中，所述单尺度运动特征数据包括特征时间梯度数据和特征空间梯度数据；

所述单尺度运动特征获取单元包括：

降维子单元，用于对从所述第一视频帧提取的所述特征数据进行卷积降维，对从所述第二视频帧提取的所述特征数据进行卷积降维；

特征时间梯度获取子单元，用于将经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据相减，获取特征时间梯度数据；

特征空间梯度获取子单元，用于通过边缘算子计算经过卷积降维的所述第一视频帧的所述特征数据和经过卷积降维的所述第二视频帧的所述特征数据之间的特征空间梯度数据。

12.根据权利要求10所述的装置，其中，所述装置还包括：

尺度特征数据获取模块，用于通过用于特征提取的第一神经网络模型，从所述第一视频帧提取至少一个尺度的特征数据，并且从所述第二视频帧提取相应尺度的特征数据。

13.根据权利要求12所述的装置，其中，所述帧内动作分类模块用于通过所述第一神经网络模型，根据所述第一视频帧的至少一个尺度的特征数据，获取所述第一视频帧中所述目标对象的帧内动作分类数据。

14.根据权利要求13所述的装置，其中，所述帧间动作分类模块用于：

15.根据权利要求14所述的装置，其中，所述第二神经网络模型包括与所述尺度的个数对应的多个帧间动作检测子网模块；

所述帧间动作分类模块用于，针对从所述第一视频帧提取的任一所述尺度的特征数据以及从第二视频帧提取的相应尺度的特征数据，通过对应于当前尺度的帧间动作检测子网模块，根据从所述第一视频帧提取的当前尺度的所述特征数据和从所述第二视频帧提取的所述当前尺度的所述特征数据，获取所述当前尺度的单尺度运动特征数据；将所述单尺度运动特征数据与已处理尺度的尺度融合运动特征数据进行融合，获取所述当前尺度的尺度融合运动特征数据；根据所述当前尺度的尺度融合运动特征数据，获取对应于当前尺度的帧间动作分类数据。

16.根据权利要求10~15中任一项所述的装置，其中，所述动作分类确定模块用于通过用于视频动作分类的第三神经网络模型，根据所述帧内动作分类数据和所述帧间动作分类数据，确定所述目标对象的动作分类。

17.根据权利要求13~15中任一项所述的装置，其中，所述第一神经网络模型具有多个复合卷积模块和分类器模块。

18.根据权利要求15所述的装置，其中，所述帧间动作检测子网模块包括具有卷积层和残差网络模块。

19.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1~9中任一项所述的视频分类方法相应的操作。

20.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1~9中任一项所述的视频分类方法的步骤。