CN112579824A

CN112579824A - 视频数据分类方法、装置、电子设备及存储介质

Info

Publication number: CN112579824A
Application number: CN202011486751.0A
Authority: CN
Inventors: 徐楠; 朱超; 孔庆超; 张西娜; 吴晓飞; 曲宝玉; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-30

Abstract

本发明公开了一种视频数据分类方法、装置、电子设备及存储介质，所述方法包括：获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列；对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数；基于所述各模态下的分类分数确定所述视频数据的目标分类结果。本发明实施例的技术方案对三种模态下的图像帧序列分别进行分类处理，并根据各自的分类分数综合确定视频数据的目标分类结果，使得分类结果更加准确，视频数据的分类效率更高。

Description

视频数据分类方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及视频分类技术领域，尤其涉及一种视频数据分类方法、装置、电子设备及存储介质。

背景技术

近年来，基于视频数据的人体行为识别处理已广泛应用在许多工业领域，例如，智能监控领域，公共安全领域以及人际交互领域等。

现今针对视频数据的人体行为的识别有的方法是将视频数据先做简单的分类，分为群体类别和个体类别，每种类别中再细化分不同的子类别，每次对视频数据进行分类处理，都要检测视频数据中的人数，场景类别等确定该视频数据是属于群体类还是个体类，再进行子类别的划分，对视频数据的分类耗时较长，因此，需要一种精准的高效的视频数据分类方法。

发明内容

本发明提供一种视频数据分类方法、装置、电子设备及存储介质，以实现针对任一视频数据进行活动分类，提高视频数据分类的准确性和高效性。

第一方面，本发明实施例提供了一种视频数据分类，所述方法包括：

获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列；

对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数；

基于所述各模态下的分类分数确定所述视频数据的目标分类结果。

第二方面，本发明实施例还提供了一种视频数据分类装置，该装置包括：

模态信息获取模块，用于获取视频数据中的RGB模态信息、光流场模态信息和动态图模态信息；

分类分数获取模块，用于分别基于RGB模态信息、光流场模态信息以及动态图模态信息进行卷积操作，对视频数据进行分类，并获取每种类别的每种模态信息的分类分数；

目标分类结果确定模块，用于基于所述RGB模态信息、光流场模态信息以及动态图模态信息的分类分数确定目标分类结果。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中任一所述的视频数据分类方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在有计算机处理器执行时用于执行本发明实施例中任一所述的视频数据分类方法。

本发明实施例的技术方案，通过获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列，并对RGB模态、光流场模态和动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数，并基于每个模态下的分类分数确定视频数据的目标分类结果。本发明实施例的技术方案对三种模态下的图像帧序列分别进行分类处理，并根据各自的分类分数综合确定视频数据的目标分类结果，使得分类结果更加准确。由于不需要将视频数据划分群体类别和个体类别，也即不需要对视频数据进行初步的图像帧处理，只需确定各个模态下的图像分类分数，基于这些分类分数确定视频数据的目标分类结果，提高视频数据的分类效率。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1所示为本发明实施例一中的一种视频数据分类方法的流程示意图；

图2所示为本发明实施例二中的一种视频数据分类方法的流程示意图；

图3所示为本发明实施例三中的一种视频数据分类方法的流程示意图；

图4所示为本发明实施例四中的一种视频数据分类装置的结构示意图；

图5所示为本发明实施例五中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的视频数据分类方法的流程图，本实施例可适用于视频数据的分类的情况，该方法可以由视频数据分类装置来执行，该装置可以通过软件和/或硬件的形式实现，本发明实施例的视频数据分类方法具体包括如下步骤：

S110、获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列。

其中，视频数据为任一场景下的视频数据，RGB模态是指图像帧序列中保持原有RGB三原色的图像帧的状态，RGB模态下的图像帧序列包含空间信息。光流场模态是指根据光流法得到任意连续两个图像帧中的逐个像素点的瞬时位移，表征图像帧序列中包含的运动信息的图像帧所处的状态，光流场模态下的图像帧序列包含时序信息。动态图模态是指图像帧序列中空间信息随时序的变化，得到包括图像帧序列的时空信息图像帧所处的状态，动态图模态下的图像帧序列包含时空信息。具体的，获取RGB模态包含有空间信息的图像帧序列、光流场模态下包含有时序信息的图像帧序列以及动态图模态下包含有时空信息的图像帧序列，为后续对图像帧序列的分类做准备工作。

示例性的，基于视频数据提取RGB模态下的图像帧序列；基于所述RGB模态下的图像帧序列中提取光流场信息和动态图信息，基于所述光流场信息形成光流场模态下的图像帧序列，基于所述动态图信息形成动态图模态下的图像帧序列。

其中，将视频数据划分为单个图像帧，由时间先后顺序得到的图像帧序列即为RGB模态下的图像帧序列。从RGB模态下的图像帧序列中，按照光流法得到连续两个图像帧中逐个像素点的瞬时位移，从而得到连续两个图像帧中运动信息，光流法基于亮度恒定假设、时间连续性假设以及空间一致性假设，对每连续两个图像帧进行计算之后，得到光流场模态下的包含时序信息的图像帧序列。将RGB模态下的图像帧序列基于动态图信息进行计算，得到动态图模态下的图像帧序列，示例性，将RGB模态下的图像帧序列基于动态图信息进行计算之后，获得动态图模态下的图像帧。

S120、对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数。

其中，分类分数是指图像序列属于各个类别的分数，例如可以是视频图像在各模态下属于各个类别的概率。基于RGB模态下的图像帧序列进行分类处理，得到RGB模态下的图像帧序列属于各个类别中的分数，同理，得到光流场模态下的图像帧序列属于各个类别中的分数和动态图模态下的图像帧属于各个类别中的分数。

本实施例中，通过基于视频图像的各个模型下的图像帧序列分别进行分类处理，以基于视频图像的不同特征实现分类处理，得到各模态下的分类分数，便于后续基于各模态下的分类分数综合得到视频图像的分类情况。

S130、基于所述各模态下的分类分数确定所述视频数据的目标分类结果。

其中，目标分类结果是指在多个视频类别中，基于各个模态下的分类分数确定各个模态下的图像帧序列所属的视频数据的目标分类结果。示例性的，目标分类结果可以是对各模态下的分类分数进行预设规则的处理得到，该预设规则可以是均值计算规则、加权计算规则或者是最大值比较规则等。

基于多个模态下的图像序列进行分类，综合视频数据的多种特征以提高特征的全面性，以及分类的结果的精确度，并且，由于不需要对视频数据进行预先的个体分类和群体分类，本发明实施例的视频数据分类方法可以提高视频数据分类的效率。

本发明实施例的技术方案，通过获取视频数据分别在RGB模态下、光流场模态下和动态图模态下的图像帧序列，对三种模态下的图像帧序列分别进行分类处理，以确定各模态下的分类分数，并基于各模态下的分类分数确定视频数据的目标分类结果。本发明实施例的技术方案基于多个模态下的图像序列进行分类，使得分类的结果更加精准，由于不需要对视频数据进行预先的个体分类和群体分类，本发明实施例的技术方案可以提高视频数据分类的效率。

在一实施例中，步骤120进一步优化为：将所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别输入至预先训练的类别提取模型，获取所述类别提取模型输出的各模态下的分类分数；其中，所述类别提取模型为分别基于各模态下的样本数据和分类标签训练得到的，具有分类功能的网络模型。

其中，分别建立三个类别提取模型，分别对应三种模态，各模态的类别提取模型是基于各模态下的样本数据和分类标签训练得到的，在任一模态下进行类别提取模型的训练时，获取样本数据中图像的特征，并根据提取出的特征进行分类，得到的预测分类结果与样本数据分类标签进行比对，以预测分类结果的损失函数，基于该损失函数对类别提取模型进行参数调节，直到满足预测精度或者达到收敛。基于上述训练过程对各模态的类别提取模型进行训练，以得到可以基于各模态下图像帧序列识别功能的类别提取模型。示例性的，所述类别提取模型为RESNET101网络模型。将三种模态下的图像帧序列分别输入至类别提取模型，以获得每个模态下的分类分数。

示例性的，所述类别提取模型包括特征提取子模型和分类子模型；其中，所述将所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别输入至预先训练的类别提取模型，获取所述类别提取模型输出的各模态下的分类分数，包括：基于所述特征提取子模型提取任一模态下图像帧序列的特征信息；基于所述分类子模型对所述任一模态下图像帧序列的特征信息进行分类处理，得到任一模态下图像帧序列属于各分类类型的分类分数。

其中，特征提取子模型用于对各模态下的图像帧序列中的图像进行特征提取。分类子模型用于基于特征提取子模型得到的各模态下的图像帧序列中的图像的特征信息进行分类。基于特征提取子模型提取任一的模态下的图像帧序列中图像的特征信息，并将特征信息传输至分类子模型，分类子模型根据特征信息确定任一模态下图像帧序列属于各分类类型的分类分数。

实施例二

图2所示为本发明实施例所提供的一种视频数据分类方法的流程示意图，本发明实施例提供的视频数据分类方法是在上述实施例的基础上进行的优化，对基于各模态下的分类分数确定视频数据的目标分类结果进行的进一步说明，本发明实施例的视频数据分类方法包括以下步骤：

S210、获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列。

S220、对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数。

S230、通过预先设置的处理函数对所述各模态下的分类分数进行计算，确定所述视频数据属于各分类类型的目标分类分数。

其中，所述处理函数用于对各模态下的分类分数进行计算。示例性，所述预先设置的处理函数为均值函数或加权函数。目标分类分数是指视频数据通过分类处理得到的基于各个模态下的分类结果。在确定各模态下的分类分数后，通过处理函数对各模态下的分类分数进行计算，以得到各模态下图像帧序列的分类分数，以此得到视频数据属于各分类类型的目标分类分数。

S240、将目标分类分数最大值对应的分类类型确定为所述视频数据的目标分类结果。

其中，将三种模态下的得到的目标分类分数进行计算，得到的最大值对应的分类类型就是视频数据的目标分类结果，以此实现针对视频数据进行三种模态下的图像帧序列进行分类，对得到的三个分类结果进行计算以确定视频数据的目标分类结果，以提高视频数据分类的准确度。

本发明实施例提供的技术方案，通过获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列，对这三种模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数，并根据预先设置的处理函数对各模态下的分类分数进行计算，确定视频数据属于各分类类型的目标分类分数，将三种目标分类分数中最大值对应的分类类型确定为视频数据的目标分类结果，以实现对视频数据的分类。基于三种模态下的目标分类分数确定最终视频数据的目标分类结果，提高视频数据分类的精准度。由于不需要将视频数据划分群体类别和个体类别，也即不需要对视频数据进行初步的图像帧处理，只需确定各个模态下的图像分类分数，基于这些分类分数确定视频数据的目标分类结果，提高视频数据的分类效率。

实施例三

图3所述为本发明实施例提供的一种视频数据分类方法的流程示意图，本发明实施例提供的视频数据分类方法是上述实施例的优选方案，如图3所示，本发明实施例提供的视频数据分类方法包括：

将视频数据进行分帧处理，得到RGB模态下的图像帧序列，每秒提取24帧，按时间先后顺序排列，组成视频帧序列，视频帧序列的获取有如下公式实现：

V＝{v₁,v₂,…,v_n}

其中，V为视频数据，v_n为n时刻下对应的图像帧。

提取视频数据进行光流场模态下的图像帧序列，具体的，从RGB模态下的图像帧序列中提取光流场模态下的图像帧序列。利用光流法获得连续两个图像帧中逐个像素点的瞬时位移，从而得到视频数据中的运动信息。

其中，光流法基于亮度恒定假设、时间连续性假设和空间一致性假设，获得连续两个图像帧中逐个像素点的瞬时位移，首先假设图像帧中目标的像素强度在连续两个图像帧之间不会发生变化，并且假设连续两个图像帧之间的时间足够短，从而在变化时可以忽略像素强度和时间的差异，相邻的像素具有相似的运动，根据这三个假设得到光流约束方程，假设E(x,y,t)为(x,y)点在时刻t的灰度值。设t+Δt时刻该点运动到(x+Δx,y+Δy)点，在这一点的灰度值为E(x+Δx,y+Δy)。对于运动来说，运动并不会改变图像的内容，因此，运动前后对应点的像素值是不变的，所以光流约束方程：

E(x,y,t)＝E(x+Δx,y+Δy,t+Δt)

对公式右边进行泰勒展开，得到

其中，

利用空间一致性假设作为条件，从而求解出最终的结果为：

其中，

根据上述公式可得t时刻，每个像素点在x方向和y方向上的瞬时速度。

提取视频数据中的动态图模态下的图像帧序列，具体的，从RGB模态下的图像帧序列中提取动态图模态下的图像帧序列。

其中，动态图描述了视频数据的空间信息随时序的演化，动态图可以表述图像帧进行时序池化后的表达，利用受限的线性函数来拟合图像帧的时序序列，用拟合后的函数的参数向量作为图像帧的特征向量，利用拟合后的函数向量作为视频数据内容的特征表达，首先在RGB模态下的图像帧序列V上训练一个特征拟合函数：

该函数采用图像帧序列作为输入，通过参数u来描述图像帧，满足在时序上越靠后的图像帧越具有较大的参数值。由于具有相同活动类别的不同视频数据应当具有相似但不同的参数向量，因此，通过排序机制后可以得到许多拟合了相同活动类别，不同视频数据的函数，利用得到的这些函数族的参数向量作为视频数据的表达形式。

根据图像帧的帧间先后顺序训练一个排序函数，该排序函数采用视频帧特征作为输入、表征分类分数与时间的关联性，该排序函数为：

其中，S为排序函数，向量d为待拟合的排序函数参数，I_t为前t时刻内的图像帧的平均特征，在时序上越靠后的图像帧得分越高，提取图像帧的平均特征为：

利用排序函数得到的得分归一化后作为图像帧的权重，对图像帧序列进行加权求和，得到最终的动态图模态下的图像帧D(V)：

其中

H₀＝0，T表示视频数据图像帧的数量，t表示图像帧的每一帧。

由此得到三种模态下的图像帧序列，之后对三种模态下的图像帧序列进行类别提取，预先训练得到的类别提取模型，采用各个模态下对应的类别提取模型分别对三种模态下的图像帧序列进行分类，类别提取模型包括卷积神经网络模型。这三个类别提取模型具有相似的网络结构，分别以三种对应的模态下的图像帧序列作为输入，利用卷积神经网络提取图像帧中的特征信息，根据提取出的特征信息进行分类，得到三个类别提取模型单一视频数据的分类结果，三种模态下的图像帧序列均采用RESNET101作为基础网络提取图像帧的特征信息并进行分类，RESNET101可以获取图像中的空间特征信息，分类的结果如下：

Score_RGB＝ResNet(v_i,v_j,v_k)

Score_光流场＝ResNet(o_ix,o_iy,o_jx,o_jy,o_kx,o_ky)

Score_动态图＝ResNet(img_d)

其中，v_i，v_j和v_k分别为不同时刻下的图像帧，(o_ix,o_iy)，(o_jx,o_jy)和(o_kx,o_ky)分别为不同时刻下的光流场，每一光流场均对应水平与竖直两个方向的瞬时速度，img_d为动态图。

将通过类别提取模型得到的各模态下的图像帧序列的目标分类分数进行信息归纳，利用共识函数，采用类别提取模型的结果作为输入，输出为视频数据的目标分类结果。共识函数采用平均法对类别提取模型得到的各模态下的目标分类分数进行计算，从而得到视频数据的目标分类分数。共识函数D的公式如下所述：

在得到视频数据基于各个类别的目标分类分数之后，从各个类别的目标分类分数中找到最大值，确定为视频数据的目标分类结果，公式如下：

如图3所示，经过信息归纳后，最终得到XX类别为视频数据的类别，且类别分数为0.85。

本发明实施例提供的技术方案，通过获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列，对这三种模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数，并根据预先设置的处理函数对各模态下的分类分数进行计算，确定视频数据属于各分类类型的目标分类分数，将三种目标分类分数中最大值对应的分类类型确定为视频数据的目标分类结果，以实现对视频数据的分类。基于三种模态下的目标分类分数确定最终视频数据的目标分类结果，提高视频数据分类的精准度。本发明实施例的技术方案不依赖于任何额外的设备，仅利用视频数据，利用模态转化获取视频中群体或个体活动的多模态信息，能够以更高的效率对视频中群体或个体的活动进行分析。群体或个体活动不仅涉及到空间信息和时序信息，而且包含活动的时空一致性信息。本发明实施例的技术方案仅利用单一的视频数据挖掘出包含不同信息的多模态数据，对时空特征进行对齐，能够提升活动分类任务的准确率。在训练过程中无需依赖人类的先验知识选取鲁棒性的特征，完全由类别提取模型进行，这一过程无需人工干预，鲁棒性更好，减少了数据偏好对类别提取模型的影响，更加适合于实际应用场景中，比如，用于多种场景下的活动分析任务，例如智慧养老领域，利用人工智能技术通过视频分析对老人活动进行识别与分析，监测老人的身体状态，实现智能看护。

实施例四

图4所示为本发明实施例提供的一种视频数据分类装置的结构示意图，本发明实施例提供的视频数据分类装置可执行本发明任一实施例提供的视频数据分类方法，如图4所示，本发明实施例的视频数据分类装置包括图像帧序列获取模块410、分类分数确定模块420以及目标分类结果确定模块430，其中：

图像帧序列获取模块410，用于获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列；

分类分数确定模块420，用于对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数；

目标分类结果确定模块430，用于基于所述各模态下的分类分数确定所述视频数据的目标分类结果。

进一步的，所述目标分类结果确定模块430包括：

目标分类分数确定子模块，用于通过预先设置的处理函数对所述模态下的分类分数进行计算，确定所述视频数据属于各分类类型的目标分类分数；

目标分类结果确定子模块，用于将目标分类分数最大值对应的分类类型确定为所述视频数据的目标分类结果。

进一步的，所述图像帧序列获取模块410包括：

第一图像帧序列提取子模块，用于基于视频数据提取RGB模态下的图像帧序列；

第二图像帧序列提取子模块，用于基于所述RGB模态下的图像帧序列中提取光流场信息和动态图信息，基于所述光流场形成光流场模态下的图像帧序列，基于所述动态图信息形成动态图模态下的图像帧序列。

进一步的，所述分类分数确定模块420包括：

分类分数获取子模块，用于将所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别输入至预先训练的类别提取模型，获取所述类别提取模型输出的各模态下的分类分数；其中，所述类别提取模型为分别基于各模态下的样本数据和分类标签训练得到的，具有分类功能的网络模型。

进一步的，所述类别提取模型包括特征提取子模型和分类子模型，其中，所述分类分数获取子模块包括：

特征信息提取单元，用于基于所述特征提取子模型提取任一模态下图像帧序列的特征信息；

分类分数获取单元，用于基于所述分类子模型对所述任一模态下图像帧序列的特征信息进行分类处理，得到任一模态下图像帧序列属于各分类类型的分类分数。

本发明实施例提供的技术方案，通过图像帧序列获取模块获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列，通过分类分数确定模块对RGB模态、光流场模态和动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数，并通过目标分类结果确定模块基于每个模态下的分类分数确定视频数据的目标分类结果。本发明实施例的技术方案对三种模态下的图像帧序列分别进行分类处理，并根据各自的分类分数综合确定视频数据的目标分类结果，使得分类结果更加准确。只需确定各个模态下的图像分类分数，基于这些分类分数确定视频数据的目标分类结果，提高视频数据的分类效率。

本发明实施例所提供的视频数据分类装置可执行本发明任意实施例所提供的视频数据分类方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施例实施方式的示例性电子设备50的框图。图5显示的设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，设备50以通用计算设备的形式表现。设备50的组件可以包括但不限于：一个或者多个处理器或者处理单元501，系统存储器502，连接不同系统组件(包括系统存储器502和处理单元501)的总线503。

总线503表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备50访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器502可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)504和/或高速缓存存储器505。设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块507的程序/实用工具508，可以存储在例如存储器502中，这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。

设备50也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信，还可与一个或者多个使得用户能与该设备50交互的设备通信，和/或与使得该设备50能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且，设备50还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器512通过总线503与设备50的其它模块通信。应当明白，尽管图5中未示出，可以结合设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元501通过运行存储在系统存储器502中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视频数据分类方法。

实施例六

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频数据分类方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频数据分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述各模态下的分类分数确定所述视频数据的目标分类结果包括：

通过预先设置的处理函数对所述各模态下的分类分数进行计算，确定所述视频数据属于各分类类型的目标分类分数；

将目标分类分数最大值对应的分类类型确定为所述视频数据的目标分类结果。

3.根据权利要求2所述的方法，其特征在于，所述预先设置的处理函数为均值函数或加权函数。

4.根据权利要求1所述的方法，其特征在于，所述获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列包括：

基于视频数据提取RGB模态下的图像帧序列；

基于所述RGB模态下的图像帧序列中提取光流场信息和动态图信息，基于所述光流场信息形成光流场模态下的图像帧序列，基于所述动态图信息形成动态图模态下的图像帧序列。

5.根据权利要求1所述的方法，其特征在于，所述对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数包括：

将所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别输入至预先训练的类别提取模型，获取所述类别提取模型输出的各模态下的分类分数；其中，所述类别提取模型为分别基于各模态下的样本数据和分类标签训练得到的，具有分类功能的网络模型。

6.根据权利要求5所述的方法，其特征在于，所述类别提取模型包括特征提取子模型和分类子模型；

其中，所述将所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别输入至预先训练的类别提取模型，获取所述类别提取模型输出的各模态下的分类分数，包括：

基于所述特征提取子模型提取任一模态下图像帧序列的特征信息；

基于所述分类子模型对所述任一模态下图像帧序列的特征信息进行分类处理，得到任一模态下图像帧序列属于各分类类型的分类分数。

7.根据权利要求5所述的方法，其特征在于，所述类别提取模型为RESNET101网络模型。

8.一种视频数据分类装置，其特征在于，包括：

图像帧序列获取模块，用于获取视频数据分别在RGB模态、光流场模态和动态图模态下的图像帧序列；

分类分数确定模块，用于对所述RGB模态、所述光流场模态和所述动态图模态下的图像帧序列分别进行分类处理，确定各模态下的分类分数；

目标分类结果确定模块，用于基于所述各模态下的分类分数确定所述视频数据的目标分类结果。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频数据分类方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在有计算机处理器执行时用于执行如权利要求1-7中任一所述的视频数据分类方法。