CN112633260B

CN112633260B - 视频动作分类方法、装置、可读存储介质及设备

Info

Publication number: CN112633260B
Application number: CN202110250187.0A
Authority: CN
Inventors: 冀志龙; 陈博昱; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-22
Anticipated expiration: 2041-03-08
Also published as: CN112633260A

Abstract

本发明提供一种视频动作分类方法、装置及设备，视频动作分类方法包括：获取输入视频序列；输入视频序列包括多个视频帧图像；将所述输入视频序列输入卷积层，得到卷积输出特征序列F；对卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

；对运动增强输出特征

进行时序增强处理，得到时序增强输出特征

；将卷积输出特征序列F与时序增强输出特征

进行第一融合处理，得到第一融合输出特征；以及将所述第一融合输出特征输入全连接层，得到分类结果

。该方法可以增加对大尺度、长距离的信息融合，提高算法的精度。

Description

视频动作分类方法、装置、可读存储介质及设备

技术领域

本发明涉及视频分类技术领域，尤其涉及一种视频动作分类方法、装置、可读存储介质及设备。

背景技术

随着电子设备的普及，基于视频的信息传递和交流，在人们的生活和工作中的份量越来越重要。视频动作识别是视频任务中的一项基本任务，在很多方面都得到了成功的应用，例如智能监控、自动驾驶、个人推荐和娱乐等方面。

目前，对于视频动作分类任务，主要基于两方面的信息来解决。第一，基于相邻帧之间的运动信息，已有的主要是两种方法，一是采用光流方法计算相邻帧之间的运动信息，二是计算神经网络提取的相邻帧之间的特征差值作为一种运动信息的近似表示。光流方法的计算量非常大，无法做到实时。特征差的方法是一种简单的近似求解，不能很好的代表运动信息。第二，基于视频序列上的时间信息融合特征，已有的主要采用两种方法，一是通过3D卷积做时序上信息的融合，二是在时序通道上做位移错位操作以达到时序信息的融合。采用3D卷积时，单层中只能融合卷积核大小的信息，随着卷积层数的加深，时序信息融合的范围会加深，但是无法做到大尺度、长距离的时序信息融合。时间错位操作是在邻近时序通道的错位，存在同样的问题。

发明内容

为了解决上述技术问题中的至少一个，本发明的一些方面提供了一种视频动作分类方法、装置、可读存储介质及设备，以增加对大尺度、长距离的信息融合，提高算法的精度。

一方面，本发明提供一种视频动作分类方法，采用视频动作分类模型对视频动作进行分类，视频动作分类方法包括：

获取输入视频序列，所述输入视频序列包括多个视频帧图像；

将所述输入视频序列输入卷积层，得到卷积输出特征序列F；

对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

；

对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

；

将所述卷积输出特征序列F与所述时序增强输出特征

进行第一融合处理，得到第一融合输出特征；以及

将所述第一融合输出特征输入全连接层，得到分类结果

。

在本发明的至少一个实施例中，对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

，包括：

计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi；

将所述多个第二融合输出特征Hi进行第三融合处理，得到第三融合输出特征H；

生成一帧与所述第三融合输出特征H同样维度的全零特征，作为最后一帧并与所述第三融合输出特征H进行第四融合处理，得到所述运动增强输出特征

。

，还包括：

在所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi之前，对所述卷积输出特征序列F采用指定维度的卷积层按照预设比例

进行降维处理，得到降维后的输出特征

；其中，

；并用所述降维后的输出特征

代替所述卷积输出特征序列F进行后续处理。

在本发明的至少一个实施例中，计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi，包括：

其中，

为第i帧和第i+1帧的互相关特征；

为

与第i+1帧对应的卷积输出特征进行第二融合处理后的特征；k为每个像素计算互相关区域的大小；

,

为像素的矩阵坐标；

表示

与

在互相关区域的像素点积之和。

在本发明的至少一个实施例中，所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。

在本发明的至少一个实施例中，对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

，包括：

将所述运动增强输出特征

按照预设比例进行时间维度t/2⁰，t/2¹，…，t/2ⁿ的下采样，分别得到下采样特征

，

，…，

；其中n＞0，n为整数；

根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征；

将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

；

在时间维度采用指定维度的卷积层处理所述第一融合特征

，生成第二融合特征

；

采用所述指定维度的卷积层按照预设比例进行处理，获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征

。

在本发明的至少一个实施例中，所述根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征，将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

，包括：

针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

；

将所述第一时序增强特征

作为所述时间维度

的新的下采样特征，利用所述第一时序增强特征同样的计算方式，计算时间维度

的下采样特征

对应的第二时序增强特征

；

采用所述第二时序增强特征的计算方式，分别得到下采样特征

，

，…，

对应的时序增强特征

，

，…，

；

将各时序增强特征

，

，…，

，

，

与所述下采样特征

按照时间维度拼接，组成第一融合特征

。

在本发明的至少一个实施例中，所述针对进行时间维度的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

，包括：

将时间维度t/2ⁿ的下采样特征

升维到时间维度

的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；

将所述第一注意度Att1与下采样特征

相乘，获得第一时序增强特征

。

在本发明的至少一个实施例中，所述根据新的特征

和

计算得到第一注意度Att1，包括：

根据新的特征

和

，在t维度，按照以下计算公式，计算得到第一注意度Att1；

。

在本发明的至少一个实施例中，所述第一融合处理为相加处理。

在本发明的至少一个实施例中，所述视频动作分类模型通过以下方法训练得到：

获取样本输入视频序列，所述样本输入视频序列包括多个样本视频帧图像；

获取样本输入视频序列中多个样本视频帧图像的标注数据；

根据所述样本输入视频序列及标注数据，对初始视频动作分类模型进行训练，得到所述视频动作分类模型。

在本发明的至少一个实施例中，根据所述样本输入视频序列及标注数据，对初始视频动作分类模型进行训练，得到所述视频动作分类模型，包括：采用公式

作为损失函数对所述初始视频动作分类模型进行训练，直至所述视频动作分类模型收敛；

其中，

为样本输入视频序列的标注数据,

为样本输入视频序列中各样本视频帧图像的样本预测分类结果。

在本发明的至少一个实施例中，所述方法还包括：

获取视频，并将视频平均切分为多个片段；

从每个片段中随机抽取一张图像，得到所述输入视频序列。

另一方面，本发明还提供一种视频动作分类装置，包括：

视频序列获取模块，用于获取输入视频序列，所述输入视频序列包括多个视频帧图像；

卷积层，用于对所述输入视频序列进行卷积处理，得到卷积输出特征序列F；

运动增强处理模块，用于对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

；

时序增强处理模块，用于对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

；

第一融合模块，用于将所述卷积输出特征序列F与所述时序增强输出特征

进行第一融合处理，得到第一融合输出特征；以及

全连接层，用于对所述第一融合输出特征进行分类处理，得到分类结果

。

又一方面，本发明还提供一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如上任一项所述的视频动作分类方法中的步骤。

又一方面，本发明还提供一种视频动作分类设备，设备包括处理器和存储器，存储器中存储有适于处理器执行的计算机程序指令，计算机程序指令被处理器运行时执行如上任一项所述的视频动作分类方法中的步骤。

本发明的视频动作分类方法、装置、可读存储介质及设备，利用运动增强处理能更好的提取相邻帧之间的运动相关性，并与采用时序增强处理的特征进行融合，可以有效提取视频中的有效信息，增加对大尺度长距离的信息融合，提高算法预测精度。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本发明视频动作分类方法的示例性流程示意图；

图2为本发明视频动作分类方法的又一示例性流程示意图；

图3为本发明运动增强处理以及时序增强处理环节的示例性流程示意图；

图4为本发明运动增强处理过程的示例性流程示意图；

图5为本发明时序增强处理过程的示例性流程示意图；

图6为本发明视频动作分类装置的示例性结构示意图；

图7为本发明视频动作分类设备的示例性结构示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。

本发明实施例提供的方法可以由相关的处理器执行，且下文均以处理器作为执行主体为例进行说明。其中，执行主体可以根据具体案例进行调整，如服务器、电子设备、计算机等。

本发明实施例提供了一种视频动作分类方法、装置、可读存储介质及设备，以增加对大尺度、长距离的信息融合，提高算法的精度。

参见图1和图2，示例性地示出了视频动作分类方法的流程示意图；本发明实施例提供的视频动作分类方法具体包括：

S101、获取输入视频序列S，输入视频序列包括多个视频帧图像。

可选的，将一段视频平均切分为t个片段，然后从每个片段中随机抽取一张图像，组成一个输入视频序列S，其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧视频帧图像组成。

S102、将输入视频序列S输入视频动作分类模型的卷积层，得到卷积输出特征序列F。卷积输出特征序列F由各个视频图像帧经卷积层处理后得到的卷积输出特征组成。

S103、对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

。运动增强处理可以利用相邻帧之间的互相关特征更好的提取相邻帧之间的运动相关性。

S104、对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

。时序增强处理可以利用多尺度的时序注意力增强机制，有效提取视频中的有效信息。

S105、将所述卷积输出特征序列F与所述时序增强输出特征

进行第一融合处理，得到第一融合输出特征。在本发明的一种实施方式中，第一融合输出特征也可称为TME（Temporal and Motion Enhance时序和运动增强）输出特征。第一融合输出特征是指经过时序增强和运动增强处理之后的特征，包含了从输入视频序列S中提取的对后续分类重要的有效信息。

在本发明的一种实施方式中，第一融合处理可以是相加处理，也就是将卷积输出特征序列F与时序增强输出特征

进行相加。

S106、将所述第一融合输出特征输入全连接层，得到分类结果

。视频动作分类模型的全连接层通过对第一融合输出特征进行分类，输出视频动作的分类结果。

图1中的TME模块指的是时序和运动增强模块，FC（Fully Connected）指的是全连接层，类别1、类别2等代表输出的分类结果

；将视频序列S输入到深度神经网络中，输出视频分类动作结果

。

本发明的视频动作分类方法通过利用运动增强处理，能更好的提取相邻帧之间的运动相关性，并与采用时序增强处理的特征进行融合，可以有效提取视频中的有效信息，增加对大尺度长距离的信息融合，提高算法预测的精度。

进一步的，参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图，以及图4所示的运动增强处理过程的示例性流程示意图，在发明的一种实施方式中，对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

，包括：

S201、计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道（channel）维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi。

可选的，可以采用互相关计算公式来计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将互相关特征与相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi：

互相关是将第i帧中各个区域的像素和第i+1帧中对应区域的像素进行遍历相乘并求和，计算公式为：

第二融合处理可以是按照通道维度进行拼接处理，采用的公式为：

其中，

为第i帧和第i+1帧的互相关特征；

为

与第i+1帧的原始特征即原始的卷积输出特征进行拼接后的特征；k为每个像素计算互相关区域的大小；

,

为像素的矩阵坐标，具体的讲

是指第i帧图像中参与互相关计算的像素所在的行、列值形成的一对数字；

是指第i+1帧图像中参与互相关计算的像素所在的行、列值形成的一对数字；<A，B>表示A与B在互相关区域的像素点积之和，也就是说，

表示

与

在互相关区域的像素点积之和。

S202、将所述多个第二融合输出特征Hi进行第三融合处理，得到第三融合输出特征H。

在本发明的一种实施方式中，第三融合处理可以是按照通道维度进行拼接处理。例如，如果有n帧按照时序排列的图像，会在时间维度上生成n-1个第二融合输出特征Hi。第三融合处理实质上是将不同时间维度的第二融合输出特征Hi按时序进行拼接，形成第三融合输出特征H。

S203、生成一帧与第三融合输出特征H同样维度的全零特征，作为最后一帧并与第三融合输出特征H进行第四融合处理，得到运动增强输出特征

。

在本发明的一种实施方式中，第四融合处理可以是按照通道维度进行拼接处理。

由于经过步骤S202处理后，输入视频序列S中的t帧特征可产生t-1帧第三融合输出特征H，为了保证时间维度的一致性，故此生成一帧与第三融合输出特征H同样维度的全零特征（feature）代表最后一帧的特征，然后与第三融合输出特征H按照通道（channel）维度拼接起来，作为运动增强输出特征

。采用该方法处理得到的运动增强输出特征

由于利用了相邻帧之间的互相关特征，因此能够更好的提取相邻帧之间的运动相关性。

可选的，为了降低处理的计算量，在步骤S201之前，可以对所述卷积输出特征序列F采用指定维度的卷积层，例如1x1卷积层，按照预设比例

，

，进行降维处理，得到降维后的输出特征

。在后续步骤中，用降维后的输出特征

来代替卷积输出特征序列F，后续步骤的执行过程均与对卷积输出特征序列F进行处理时的情况相同。降低卷积输出特征F的维度，生成输出特征

，可以减少后续运算的计算量。图3中的“1×1 2D Conv”指的是1×1卷积层，ME（Motion Enhance）是指运动增强，TE（Temporal Enhance）是指时序增强。

进一步的，参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图，以及图5所示的时序增强处理过程的示例性流程示意图，在本发明的一种实施方式中，对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

，包括：

S301、将所述运动增强输出特征

按照预设比例进行时间维度t/2⁰，t/2¹，…，t/2ⁿ的下采样，分别得到各自对应的下采样特征

，

，…，

；其中n＞0，n为整数。以n取值为2进行举例说明，将所述时序增强输出特征

按照一定的比例进行时间维度t，t/2，t/4的下采样，分别记为

，

，

。上下采样通常为2的整倍数，这样方便信息的融合。

S302、根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。继续参照上述进行时间维度t，t/2，t/4的下采样的案例进行说明，例如可根据时间维度t/2，t/4各自对应的下采样特征

，

，计算时间维度靠前的t/2的下采样特征

对应的时序增强特征，记为

。

S303、将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

。例如，将特征

，

和

按照时间维度拼接，组成第一融合特征

。

S304、在时间维度采用指定维度的卷积层处理所述第一融合特征

，生成第二融合特征

。例如，在时间维度采用指定维度的卷积层，如采用1x1卷积层，处理所述第一融合特征

，生成第二融合特征

。

S305、采用所述指定维度的卷积层按照预设比例对第二融合特征

进行处理，获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征

。例如，与前面降维处理相对应的，按照

的比例进行升维处理。具体的，采用1x1卷积层，按照

比例，将第二融合特征

升维到与卷积输出特征序列F维度一致，形成所述时序增强输出特征

。

进一步的，根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征，将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

，包括：

S401、针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

；

S402、将所述第一时序增强特征

作为所述时间维度

的下采样特征

对应的第二时序增强特征

；

S403、采用所述第二时序增强特征的计算方式，分别得到下采样特征

，

，…，

对应的时序增强特征

，

，…，

；

S404、将各时序增强特征

，

，…，

，

，

与所述下采样特征

按照时间维度拼接，组成第一融合特征

。

需要说明的是，计算相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征的过程是一个递归循环的过程，递归循环的次数为n的取值。例如当n=2时，截至S402则完成所有时序增强特征的计算，也就是将相同的计算过程递归循环2次，最终获得时序增强特征

、

，并跳转到步骤S404，将各时序增强特征

、

与下采样特征

按照时间维度拼接，组成第一融合特征

。

当n＞2时，则依步骤S403、S404执行，以得到第一融合特征

。

在本发明的一种实施例中，针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

，包括：

将时间维度t/2ⁿ的下采样特征

升维到时间维度

的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；

将所述第一注意度Att1与时间维度靠前的下采样特征

相乘，获得第一时序增强特征

。

在本发明的一种实施例中，根据新的特征

和

计算得到第一注意度Att1，包括：

根据新的特征

和

，在t维度，按照以下计算公式，计算得到第一注意度Att1；

。

以下继续参照上述进行时间维度t，t/2，t/4的下采样的案例，并结合图5进行说明。

S501，针对进行时间维度t/2的下采样处理后对应的下采样特征F _t/2，根据与其相邻时间维度t/4的下采样特征F _t/4，计算下采样特征F _t/2对应的第一时序增强特征

。

具体的，可以采用插值或者repeat的方法，将t/4的下采样特征

升维到时间维度t/2的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；

将第一注意度Att1与下采样特征

相乘，获得第一时序增强特征

。

S502，将第一时序增强特征

作为时间维度t/2的新的下采样特征，利用同样的计算方式，计算时间维度

的下采样特征

对应的第二时序增强特征

。

具体的，将时间维度t/2的时序增强特征

升维到时间维度t的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第二注意度Att2。第二注意度Att2与第一注意力度的计算公式类似。

将第二注意度Att2与下采样特征

相乘，获得第二时序增强特征

。

S503，将各时序增强特征

、

与下采样特征

按照时间维度拼接，组成第一融合特征

。

当n＞2时，如n=3，来针对进行时间维度t，t/2，t/4，t/8的下采样的案例进行说明。

S601，针对进行时间维度t/4的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/8的下采样特征F _t/8，计算下采样特征对应的第一时序增强特征

。

具体的，可以采用插值或者repeat的方法，将t/8的下采样特征F _t/8升维到时间维度t/4的下采样特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；

将第一注意度Att1与下采样特征

相乘，获得第一时序增强特征

。

S602，将第一时序增强特征

作为时间维度t/4的新的下采样特征，利用同样的计算方式，计算时间维度

/2的下采样特征

对应的第二时序增强特征

。

具体的，将时间维度t/4的第一时序增强特征

升维到时间维度t/2的下采样特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

将第二注意度Att2与下采样特征

相乘，获得第二时序增强特征

。

S603，将第二时序增强特征

的下采样特征

对应的第三时序增强特征

。

具体的，将时间维度t/2的第二时序增强特征

升维到时间维度t的下采样特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第三注意度Att3。第三注意度Att3与第一、第二注意力度的计算公式类似。

将第三注意度Att3与下采样特征

相乘，获得第三时序增强特征

。

S604，将各时序增强特征

、

、

与下采样特征F _t/8按照时间维度拼接，组成第一融合特征

。

在本发明实施例中，视频动作分类模型通过以下方法训练得到：

获取样本输入视频序列中多个样本视频帧图像的标注数据；

在本发明实施例中，在根据所述样本输入视频序列及标注数据，对初始视频动作分类模型进行训练，得到所述视频动作分类模型的步骤中，采用公式

其中，

为样本输入视频序列的标注数据,

本发明另一方面，提供一种视频动作分类装置，用于执行前面所描述的视频动作分类方法，参见图6，视频动作分类装置包括：

视频序列获取模块401，用于获取输入视频序列。输入视频序列包括多个视频帧图像。可选的，视频序列获取模块可以将一段视频平均切分为t个片段，然后从每个片段中随机抽取一张图像，组成一个输入视频序列S，其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧图像组成。

卷积层402，用于对所述输入视频序列进行卷积处理，得到卷积输出特征序列F。卷积层为经过训练后的神经网络模型的卷积层，用于初步提取输入视频序列S中的有效信息。

运动增强处理模块403，用于对所述卷积输出特征序列F进行运动增强处理，得到运动增强输出特征

。

时序增强处理模块404，用于对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

。

第一融合模块405，用于将所述卷积输出特征序列F与所述时序增强输出特征

进行第一融合处理，得到第一融合输出特征。

全连接层406，用于对所述第一融合输出特征进行分类处理，得到分类结果

。全连接层为经过训练后的全连接卷积层，可以根据训练过的内容对TME输出特征进行分类，并输出视频动作的分类结果

。

进一步的，运动增强处理模块403包括：

互相关特征处理模块，用于计算卷积输出特征序列中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi。

融合特征处理模块，用于将所述多个第二融合输出特征Hi进行第三融合处理，得到第三融合输出特征H。

运动增强特征输出模块，用于生成一帧与所述第三融合输出特征H同样维度的全零特征，作为最后一帧并与所述第三融合输出特征H进行第四融合处理，得到所述运动增强输出特征

。

进一步的，运动增强处理模块403还包括：

降维模块，用于对所述卷积输出特征F采用指定维度的卷积层按照预设比例

进行降维处理，得到降维后的输出特征

；其中，

。

进一步的，互相关特征处理模块，还用于：通过以下公式计算互相关特征：

；

以及，利用以下公式进行第二融合处理，得到Hi：

。

进一步的，时序增强处理模块404包括：

下采样模块（也可以称为降采样模块），用于将所述时序增强输出特征

按照一定的比例进行时间维度t，t/2，t/4的下采样，分别记为

，

，

。

时序增强特征计算模块，用于根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。

第一融合模块，用于将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

。

第二融合模块，用于在时间维度采用指定维度的卷积层处理所述第一融合特征

，生成第二融合特征

。

升维处理模块，用于采用所述指定维度的卷积层按照预设比例进行处理，获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征

。

进一步的，时序增强特征计算模块，具体用于：针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

；将所述第一时序增强特征

作为所述时间维度

的下采样特征

对应的第二时序增强特征

；采用所述第二时序增强特征的计算方式，分别得到下采样特征

，

，…，

对应的时序增强特征

，

，…，

。

第一融合模块具体用于：将各时序增强特征

，

，…，

，

，

与所述下采样特征

按照时间维度拼接，组成第一融合特征

。

具体的，时序增强特征计算模块，通过将时间维度t/2ⁿ的下采样特征

升维到时间维度

的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；将所述第一注意度Att1与下采样特征

相乘，来获得第一时序增强特征

。

进一步的，时序增强特征计算模块，根据以下公式计算得到第一注意力度Att1：

。

在本发明实施例中，视频动作分类装置还包括模型训练模块，用于采用公式

作为损失函数进行模型训练，直至所述视频动作分类模型收敛；其中，

为为样本输入视频序列的标注数据,

本发明的又一方面，还提供一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行前述任一项所述的视频动作分类方法中的步骤。

本发明的又一方面，还提供一种视频动作分类设备，图7所示的视频动作分类设备的示例性结构示意图，设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

处理器用于执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。

存储器可以是只读存储器（Read-Only Memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（Random Access Memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory，EEPROM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。同时，在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电性连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种视频动作分类方法，其特征在于，采用视频动作分类模型对视频动作进行分类，视频动作分类方法包括：

获取输入视频序列，所述输入视频序列包括按照时间序列排列的t帧视频帧图像，t表示时间维度；

将所述输入视频序列输入卷积层，得到卷积输出特征序列F；所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应；

，所述运动增强处理为利用卷积输出特征序列F中相邻视频帧之间的互相关特征提取相邻视频帧之间的运动相关性；

对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

，所述时序增强处理为递归循环计算相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征；

将所述卷积输出特征序列F与所述时序增强输出特征

进行第一融合处理，得到第一融合输出特征；所述第一融合处理为相加处理；以及

将所述第一融合输出特征输入全连接层，得到分类结果

。

2.根据权利要求1所述的视频动作分类方法，其特征在于，对所述卷积输出特征序列F 进行运动增强处理，得到运动增强输出特征

，包括：

计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi；

；

所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。

3.根据权利要求2所述的视频动作分类方法，其特征在于，对所述卷积输出特征序列F 进行运动增强处理，得到运动增强输出特征

，还包括：

进行降维处理，得到降维后的输出特征

；其中，

；并用所述降维后的输出特征

代替所述卷积输出特征序列F进行后续处理。

4.根据权利要求3所述的视频动作分类方法，其特征在于，所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征，并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理，得到多个第二融合输出特征Hi，包括：

其中，

为第i帧和第i+1帧的互相关特征；

为

,

为像素的矩阵坐标；

表示

与

在互相关区域的像素点积之和；

为降维后的输出特征。

5.根据权利要求1所述的视频动作分类方法，其特征在于，对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

，包括：

将所述运动增强输出特征

，

，…，

；其中n＞0，n为整数；

将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

；

在时间维度采用指定维度的卷积层处理所述第一融合特征

，生成第二融合特征

；

采用所述指定维度的卷积层按照预设比例进行处理，获得与所述卷积输出特征序列F 维度一致的所述时序增强输出特征

。

6.根据权利要求5所述的视频动作分类方法，其特征在于，所述根据相邻两个时间维度各自对应的下采样特征，计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征，将各所述时序增强特征、所述下采样特征

按照时间维度拼接，组成第一融合特征

，包括：

针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

；

将所述第一时序增强特征

作为所述时间维度的新的下采样特征，利用所述第一时序增强特征同样的计算方式，计算时间维度

的下采样特征

对应的第二时序增强特征

；

，

，…，

对应的时序增强特征

，

，…，

；

将各时序增强特征

，

，…，

，

，

与所述下采样特征

按照时间维度拼接，组成第一融合特征

。

7.根据权利要求6所述的视频动作分类方法，其特征在于，所述针对进行时间维度

的下采样处理后对应的下采样特征

，根据与其相邻时间维度t/2ⁿ的下采样特征

，计算下采样特征

对应的第一时序增强特征

，包括：

将时间维度t/2ⁿ的下采样特征

升维到时间维度

的特征

，将下采样特征

和

分别通过一个共享卷积层计算新的特征

和

，根据新的特征

和

计算得到第一注意度Att1；

将所述第一注意度Att1与下采样特征

相乘，获得第一时序增强特征

。

8.根据权利要求7所述的视频动作分类方法，其特征在于，所述根据新的特征

和

计算得到第一注意度Att1，包括：

根据新的特征

和

，在t维度，按照以下计算公式，计算得到第一注意度 Att1；

。

9.根据权利要求1所述的视频动作分类方法，其特征在于，所述视频动作分类模型通过以下方法训练得到：

获取样本输入视频序列中多个样本视频帧图像的标注数据；

10.根据权利要求9所述的视频动作分类方法，其特征在于，所述根据所述样本输入视频序列及标注数据，对初始视频动作分类模型进行训练，得到所述视频动作分类模型，包括：

采用公式

其中，

为样本输入视频序列的标注数据,

11.根据权利要求1所述的视频动作分类方法，其特征在于，所述方法还包括：

获取视频，并将视频平均切分为多个片段；

从每个片段中随机抽取一张图像，得到所述输入视频序列。

12.一种视频动作分类装置，其特征在于，包括：

视频序列获取模块，用于获取输入视频序列，所述输入视频序列包括按照时间序列排列的t帧视频帧图像，t表示时间维度；

卷积层，用于对所述输入视频序列进行卷积处理，得到卷积输出特征序列F；所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应；

时序增强处理模块，用于对所述运动增强输出特征

进行时序增强处理，得到时序增强输出特征

第一融合模块，用于将所述卷积输出特征序列F与所述时序增强输出特征进行第一融合处理，得到第一融合输出特征；所述第一融合处理为相加处理；以及

。

13.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。

14.一种视频动作分类设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。