CN112818958B

CN112818958B - 动作识别方法、装置及存储介质

Info

Publication number: CN112818958B
Application number: CN202110313465.2A
Authority: CN
Inventors: 纪彬; 尹泽强; 孙新; 熊超; 章勇; 曹李军; 陈卫东
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-07-19
Anticipated expiration: 2041-03-24
Also published as: CN112818958A

Abstract

本申请涉及一种动作识别方法、装置及存储介质，属于动作识别技术领域，该方法包括：获取图像帧序列；将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类；分类网络包括运动特征增强结构，运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到；可以解决仅考虑单向时序运动且仅考虑通道维度的增强时，动作识别方法的准确性和鲁棒性不高的问题；通过充分利用时序的双向运动信息，并加入到网络结构中，可促使网络提取到更强的运动特征，提高动作识别的准确性。

Description

动作识别方法、装置及存储介质

技术领域

本申请涉及一种动作识别方法、装置及存储介质，属于动作识别技术领域。

背景技术

近些年来，互联网上的视频数据爆炸式地增长，这为视频理解任务带来了很大的难点，包括如何高精度地理解视频内容以及较低可接受的时间复杂度。而随着深度神经网络技术在计算机视觉各个领域的飞速发展，使用深度学习网络技术进行基于视频的动作识别任务已然十分普遍。具体的应用方式大体上分为三种。

第一种应用方式是使用三维卷积层进行基于视频的动作识别任务，三维卷积神经网络可以共同学习时间和空间特征，近些年也有一些十分出色的工作。例如一些技术使用VGG模型的三维卷积神经网络来学习视频帧序列的时空特征，一些技术提出了对二维卷积层进行扩展，将Inception V1模型扩展为三维卷积层，并取得了不错的效果。但是使用三维卷积神经网络会导致计算量大、部署困难以及容易过拟合的问题，总体来说，这种方式的特点是精度高但时间复杂度高。

第二种应用方式是使用二维卷积层进行基于视频的动作识别，例如一些技术使用了一种双流二维卷积分别对时间和空间建模的动作识别方法，时间敏感网络(Time-Sensitive Networking，TSN)利用二维卷积层提取空间信息，而后使用平均池化的方式来融合各段信息得到最终结果，总的来说，这种方式的特点是时间复杂度低但精确度不高。

第三种应用方式是多种卷积形式的混合来同时对视频段空间和时间信息进行建模，以期望达到高精度低时间复杂度。近些年也出现了许多比较出色的工作，例如一些人探索了二维卷积同三维卷积的融合，首先使用三维卷积而后使用二维卷积以及先使用二维卷积后使用三维卷积的方式。存在一些工作为了减少计算量将三维卷积分解为二维空间卷积和一维时间卷积。存在工作基于二维卷积并只使用原始RGB图像的特征偏移方式(TemporalShift Module，TSM)，以达到二维卷积的低时间复杂度和三维卷积的高精度。用于时序建模的轻量级行为识别模型(Temporal Excitation and Aggregation for ActionRecognition，TEA)在时序特征偏移操作的基础上，使用单向帧间特征差来在通道维度增强原始特征，在若干的公开数据集中取得了显著的效果。

然而，现有的基于运动特征增强的动作分类方法，仅考虑单向时序运动且仅考虑通道维度的增强，因此不能充分利用时序前后帧之间的运动特征，并且忽略了运动特征在空间维度上的分布强弱，即空间上哪些特征应当增强，哪些特征不应当增强，从而导致动作识别方法不具备良好的准确性和鲁棒性的问题。

发明内容

本申请提供了一种动作识别方法、装置及存储介质，可以通过充分利用时序的双向运动信息，并加入到网络结构中，可促使网络提取到更强的运动特征，提高动作识别的准确性。本申请提供如下技术方案：

第一方面，提供一种动作识别方法，获取图像帧序列；

将所述图像帧序列输入预先训练的分类网络，得到所述图像帧序列对应的动作分类；

其中，所述分类网络包括运动特征增强结构，所述运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；所述图像帧序列对应的动作分类结合所述前向运动特征差和所述后向运动特征差计算得到。

可选地，所述前向运动特征差为：第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差；

所述后向运动特征差为：第i帧图像帧的平滑后的图像特征与第i+1帧图像帧的第一维度的图像特征之差；

其中，所述平滑后的图像特征是对第一维度的图像特征进行运动平滑后得到的图像特征；所述i为正整数，且i的值小于所述图像帧序列的帧总数。

可选地，所述运动特征增强结构包括二维的卷积层，所述二维的卷积层的输入通道数和输出通道数相同，并用于对所述第一维度的图像特征进行运动平滑。

可选地，所述运动特征增强结构包括时空信息计算结构；

其中，所述时空信息计算结构在接收到所述第i帧图像帧对应的前向运动特征差和后向运动特征差后，计算所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图；基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征；

相应地，所述图像帧序列对应的动作分类基于所述增强后的运动特征计算得到。

可选地，所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征，包括：

将所述前向运动特征差对应的时空概率图和所述后向运动特征差对应的时空概率图转换为第二维度，所述第二维度是所述原始通道特征的通道数；

计算所述变换后的时空概率图的平均值；

将所述平均值与所述原始通道特征进行点乘，得到所述增强后的运动特征。

可选地，所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征之后，还用于：

对所述增强后的运动特征进行时序融合，得到时序融合的图像帧特征；

将所述原始通道特征与所述时序融合的图像帧特征求取平均，得到所述第i帧图像帧的背景信息补偿，所述背景信息补偿用于供所述分类网络计算所述动作分类。

可选地，所述运动特征增强结构还包括降维结构，所述降维结构用于将输入的图像特征从第二维度降维至第一维度，得到所述第一维度的图像特征。

可选地，所述分类网络还包括基础网络，所述基础网络包括第一阶段结构和第二阶段结构，所述第一阶段结构用于提取图像的浅层特征，所述第二阶段结构用于提取图像的深层特征；所述运动特征增强结构位于所述第一阶段结构和所述第二阶段结构之间。

可选地，所述将所述图像帧序列输入预先训练的分类网络，得到所述图像帧序列对应的动作分类，包括：

通过所述第一阶段网络提取所述图像帧序列的图像特征，得到第二维度的图像特征；

通过所述运动特征增强结构对所述第二维度的图像特征进行处理，计算所述前向运动特征差和所述后向运动特征差；根据所述前向运动特征差和所述后向运动特征差计算得到增强后的特征信息；

通过所述第二阶段网络基于所述增强后的特征信息计算得到所述动作分类。

可选地，所述通过所述第二阶段网络基于所述增强后的特征信息计算得到所述动作分类，包括：

将所述增强后的特征信息输入所述第二阶段网络后，在时序维度上对网络输出结果求取平均，得到序列特征；

将所述序列特征依次输入全连接层以及逻辑回归层，得到所述图像帧序列的类别概率分布；

将所述类别概率分布中最大的类别概率对应的分类确定为所述动作分类。

可选地，所述获取图像帧序列，包括：

对目标视频进行抽帧处理，得到多个图像帧；

对所述多个图像帧进行预处理，得到所述图像帧序列。

第二方面，提供一种动作识别装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的动作识别方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的动作识别方法。

本申请的有益效果至少包括：通过获取图像帧序列；将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类；其中，分类网络包括运动特征增强结构，运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到；通过充分利用时序的双向运动信息，并加入到网络结构中，可促使网络提取到更强的运动特征，提高动作识别的准确性。

另外，通过充分考虑空间维度上运动信息部分也应当进行显著性增强，结合通道维度上的增强，提出了一种时空维度上对运动信息部分同时进行增强，提高动作识别的准确性。

另外，本申请将双向时空运动增强模块放置在第一阶段网络和第二阶段网络之间，这个位置为处理浅层特征和深层特征的过渡阶段，更有利于视频信息的时序建模。在计算效率上，相比以往运动增强方法，计算量更小，更加灵活。并在实际安防视频人体行为分析应用中体现了很好的鲁棒性以及准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的动作识别方法的流程图；

图2是本申请一个实施例提供的抽帧过程的示意图；

图3是本申请一个实施例提供的分类网络的示意图；

图4是本申请一个实施例提供的运动特征增强结构的示意图；

图5是本申请一个实施例提供的动作识别装置的框图；

图6是本申请又一个实施例提供的动作识别装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

本申请提供了一种对视频时序建模进行改进的技术。在现实世界中，基于视频的动作所属类别往往更依赖于视频中人或物执行的动作。基于特征偏移的动作识别方法在进行时序建模时，没有区分时序上背景信息和运动信息。而用于时序建模的轻量级行为识别模型(Temporal Excitation and Aggregation for Action Recognition，TEA)在使用运动信息增强时序的过程中仅考虑单向，且仅考虑在通道维度进行增强。基于此，本申请提供的动作识别方法通过对时序双向的运动信息提取特征并融合，用以增强待偏移特征，相比现有技术使得基于视频的动作识别更依赖于时序动作关联，提高动作识别准确性。

可选地，本申请以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或服务器等具有计算能力的设备。其中，终端可以是计算机、服务器、手机等电子设备，本实施例不对终端的类型作限定。

下面对本申请提供的动作识别方法进行介绍。

图1是本申请一个实施例提供的动作识别方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取图像帧序列。

图像帧序列是电子设备基于目标视频得到的，或者，是其它设备发送的，本实施例不对图像帧序列的来源作限定。

图像帧序列包括多个图像帧，以图像帧序列是电子设备基于目标视频得到的为例，获取图像帧序列，包括：对目标视频进行抽帧处理，得到多个图像帧；对多个图像帧进行预处理，得到图像帧序列。

在一个示例中，电子设备使用多媒体处理工具(如ffmpeg)对目标视频进行抽帧处理，得到多个图像帧；之后，将每个目标视频对应的图像帧的文件路径、图像帧数、视频所属类别记录到指定文件(如txt文件)中。在需要进行动作识别时，电子设备读取图像帧数据，根据指定文件中的文件路径以及图像帧数读取多个图像帧，并进行图像的预处理，得到图像帧序列。

参考图2，对目标视频进行抽帧处理，包括：使用多媒体处理工具抽取目标视频中的图像帧，得到多张图像帧，之后，对多张图像帧进行稀疏采样，得到多个帧段；再从每个帧段中随机采样一帧，得到一帧图像帧。图2中以将多张图像帧整体分为8段，记作V_f，之后从每个帧段中随机采样一帧，记作S_f为例进行说明，在实际实现时，图像帧也可以分为更多或更少的段，本实施例不对图像帧的抽取数量作限定。

可选地，在多张图像帧后，还可以对每一帧图像进行中心裁剪以及尺度变换，得到预设尺度的图像。比如：得到尺度为224x224的图像。

可选地，预处理包括但不限于以下几种中的至少一种：对各个图像帧进行随机裁剪、输入数据的标准化和随机水平翻转。

比如：在进行随机裁剪时，可以在图像的空间位置可以在左上、右上、左下、右下、和/或中央进行随机裁剪，裁剪大小为256x256，然后将256x256大小的图像帧大小变换为224x224。

对输入数据进行标准化处理时，可以先对图像帧进行归一化，而后减去数据集整体的图像均值，除以数据集整体的图像标准差，得到标准化图像。

步骤102，将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类；其中，分类网络包括运动特征增强结构，运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到。

在一个示例中，分类网络还包括基础网络，该基础网络包括第一阶段结构和第二阶段结构，第一阶段结构用于提取图像的浅层特征，第二阶段结构用于提取图像的深层特征；运动特征增强结构位于第一阶段结构和第二阶段结构之间。

可选地，基础网络为深度卷积网络。参考图3，以基础网络为残差网络ResNet50为例进行说明，ResNet50的第一阶段结构和第二阶段结构分别包括两组残差块，每组残差块包括由卷积层、批标准化(BatchNormalization)层以及线性整流(Rectified LinearUnits，ReLU)激活函数构成的多个重复单元。运动特征增强结构位于第二个残差块和第三个残差块之间，即，第一阶段结构和第二阶段结构之间。

相应地，将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类，包括：通过第一阶段网络提取图像帧序列的图像特征，得到第二维度的图像特征；通过运动特征增强结构对第二维度的图像特征进行处理，计算前向运动特征差和后向运动特征差；根据前向运动特征差和后向运动特征差计算得到增强后的特征信息；通过第二阶段网络基于增强后的特征信息计算得到动作分类。

比如：以图2所示的图像帧序列、且基础网络为ResNet50为例，使用ResNet50的第一个残差块和第二个残差块对8帧图像序列S_f提取特征，得到F_f ^s，其中，上标s的含义表示该特征为空域特征，下标f的含义表示图像序列。图像特征F_f ^s为第二维度，第二维度用于指示图像特征F_f ^s的通道数，比如：图像特征F_f ^s为通道数为256的图像特征，特征大小为[B*8×256×56×56]，其中B表示批数量，8表示图像帧序列的帧数，56×56表示图像帧特征的宽和高。

本实施例中，运动特征增强结构用于对第二维度的图像特征进行双向时空运动信息的增强。

在一个示例中，前向运动特征差为：第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差。后向运动特征差为：第i帧图像帧的平滑后的图像特征与第i+1帧图像帧的第一维度的图像特征之差。其中，平滑后的图像特征是对第一维度的图像特征进行运动平滑后得到的图像特征；i为正整数，且i的值小于图像帧序列的帧总数。

可选地，第一维度与第二维度相同或不同。为了降低分类模型占用的计算资源，本实施例中以第一维度小于第二维度为例进行说明。相应地，运动特征增强结构还包括降维结构，该降维结构用于将输入的图像特征从第二维度降维至第一维度，得到第一维度的图像特征。

参考图4，降维结构可以实现为二维的分组卷积层conv1，输入通道数为第二维度(如256)，输出通道数为第一维度(如16)。分组卷积是指将输入的特征图分组，将每个卷积核进行相应分组，在对应组内做卷积的计算方式。

之后，将第一维度的图像特征在时序上进行展开，得到n个大小为[B×第一维度×W×H]的张量F_t，F_t+1，F_t+2，…，F_t+n-1，这n个张量分别表示时序t1,t2,t3,t4,t5,…tn的特征，n为图像帧序列的帧总数。W为图像特征的宽、H为图像特征的高。

将相邻两帧第一维度的图像特征(以第i帧图像帧的图像特征F_t+i-1和第i+1帧图像帧的图像特征F_t+i为例)分别通过运动平滑结构，得到平滑后的图像特征，即第i帧图像帧对应的平滑后的图像特征Fs_t+i-1、和第i+1帧图像帧对应的平滑后的图像特征Fs_t+i。此时，运动特征增强结构包括该运动平滑结构。

示意性地，运动平滑结构可以为二维的卷积层conv2，该二维的卷积层的输入通道数和输出通道数相同，步长为1，并用于对第一维度的图像特征进行运动平滑。

之后，分类网络计算第i帧图像帧的前向运动特征差Diff_fw为：F_t+i-1-Fs_t+i；第i帧图像帧的后向运动特征差Diff_bw为：Fs_t+i-1-F_t+i。

可选地，运动特征增强结构还包括时空信息计算结构；时空信息计算结构用于结合第i帧图像帧对应的前向运动特征差和后向运动特征差，计算经过前后帧时空运动信息增强后的特征，即增强后的运动特征。

在一个示例中，时空信息计算结构在接收到第i帧图像帧对应的前向运动特征差和后向运动特征差后，计算前向运动特征差对应的时空概率图和后向运动特征差对应的时空概率图；基于时空概率图对第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征；相应地，图像帧序列对应的动作分类基于增强后的运动特征计算得到。

图4中以分类结构通过激活函数Sigmoid函数计算前向运动特征差和后向运动特征差对应的时空概率图为例进行说明，根据图4可知，前向运动特征差和后向运动特征差分别输入对应的Sigmoid函数，得到前向运动特征差对应的时空概率图和后向运动特征差对应的时空概率图。

其中，基于时空概率图对第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征，包括：将前向运动特征差对应的时空概率图和后向运动特征差对应的时空概率图转换为第二维度；计算变换后的时空概率图的平均值；将平均值与原始通道特征进行点乘，得到增强后的运动特征。

根据上文可知，第二维度是原始通道特征的通道数。由于第一维度小于第二维度，基于此，分类网络可以通过升维结构将时空概率图转换为第二维度。示意性地，图4中以升维网络为升维卷积conv3为例进行说明。

可选地，为了提高分类网络进行动作识别的准确性，分类网络在得到增强后的运动特征之后，还需要基于该增强后的运动特征进行背景信息补偿。具体地，基于时空概率图对第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征之后，还用于：对增强后的运动特征进行时序融合，得到时序融合的图像帧特征；将原始通道特征与时序融合的图像帧特征求取平均，得到第i帧图像帧的背景信息补偿，该背景信息补偿用于供分类网络计算动作分类。

图4中以通过一维的分组卷积1d conv对增强后的运动特征进行时序融合为例进行说明，之后，将原始通道特征F与时序融合的图像帧特征求取平均，得到背景信息补偿。

在得到背景信息补偿后，输入基础网络的第二阶段网络进行特征融合，并进行融合后的特征提取。具体地，通过第二阶段网络基于增强后的特征信息计算得到动作分类，包括：将增强后的特征信息输入第二阶段网络后，在时序维度上对网络输出结果求取平均，得到序列特征；将序列特征依次输入全连接(fully connected，FC)层以及逻辑回归(softmax)层，得到图像帧序列的类别概率分布；将类别概率分布中最大的类别概率对应的分类确定为动作分类。

可选地，本实施例提供的分类网络是预先训练得到的。训练过程至少包括如下几个步骤：

1、生成训练样例。

电子设备生成训练样例的相关说明参考步骤101，本实施例在此不再赘述。

比如：电子设备使用ffmpeg对原始视频进行抽帧处理，对每一帧图像进行中心裁剪以及尺度变换，其中得到尺度为224x224的图像，将视频帧序列整体分为8段，记作V_f，其中每个视频段为随机采样的一帧，记作S_f。

2、抽取图像特征。

电子设备通过基础网络的第一阶段网络抽取图像特征。

比如：电子设备使用ResNet-50的第一阶段网络对上述8帧图像序列S_f提取特征，得到F_f ^s，其中上标s的含义表示该特征为空域特征，下标f的含义表示图像序列，其为通道数为256的图像序列特征，特征大小为[B*8x256x56x56]，其中B表示训练处理样本的个数，8表示视频帧序列的帧数，56表示图像帧特征的宽和高。

3、对图像特征进行双向时空运动信息增强。

其中，双向时空运动信息增强的过程与图4所示的过程相同。比如：通过上述步骤1和2的处理，得到特征大小为[B*8x256x56x56]的图像特征。双向时空运动信息增强的过程包括：

第一步，将该特征经过一个分组二维卷积层，其输入通道数为256，输出通道数为16；

第二步；将降维后的结果在时序上进行展开，得到8个大小为[Bx16x56x56]的张量，这8个张量表示时序t1,t2,t3,t4,t5,t6,t7,t8的特征；

第三步，将相邻两帧降维后的特征F_t，F_t+1，各自通过一个步长为1、输入通道数和输出通道数相同的二维卷积层，得到平滑后的运动特征Fs_t，Fs_t+1；将F_t同Fs_t+1求差可得到前向运动特征差Diff_fw，将Fs_t同F_t+1求差可得到后向运动特征差Diff_bw；

第四步，分别将Diff_fw和Diff_bw输入到一个sigmoid函数中得到前后时序运动信息的时空概率图；

第五步，将该前后帧的时空概率图经过升维卷积后求取平均，而后点乘到原始256通道的特征，得到经过前后帧时空运动信息增强后的特征。

4、使用一维分组卷积融合时序特征。

示意性地，将经过前后帧时空运动信息增强后的特征输入到一维分组卷积，得到经过时序融合的视频帧特征。

5、视频帧特征的背景信息补偿。

比如：将原始256维特征和进过一维分组卷积融合后的时序特征进行求取平均，得到视频帧特征的背景信息补偿。

6、融合后的特征提取。

将步骤5得到的结果输入到基础网络的第二阶段网络，并在时序维度上对最终结果求取平均，得到该视频的特征；将视频特征输入到FC层以及softmax，得到该视频在此次迭代中的类别概率分布。可将视频特征在各个类别上概率分布的最大类别最为此次迭代生成的类别结果。

7、使用交叉熵函数作为损失函数，使用随机梯度下降(stochastic gradientdescent，SGD)优化器，使用退火策略通过反向传播算法来更新网络参数，不断重复步骤2至步骤6，直至达到迭代次数，得到分类网络。

可选地，训练阶段可以设置BatchSize为8，总的训练轮数(即迭代次数)为50，初始学习率为0.005，在20、40轮处学习率除以10，训练过程中的衰减率设置为5e-4。在其他实施例中，训练过程中设置的初始化参数也可以为其他值，本实施例不对分类网路的训练方式作限定。

可选地，分类网络可以是在电子设备的显卡上进行训练，如在RTX2080显卡上进行训练。当然，分类网络也可以在其它设备上训练后，存储在电子设备中的，本实施例不对分类网络的训练场景作限定。

在训练得到分类网络后，还可以对该分类网络进行测试。测试过程与训练过程相同，具体地，电子设备对输入数据进行归一化以及中心裁剪处理，如裁剪大小为224x224；然后输入到分类网络中，得到分类结果。

可选地，电子设备可以在Something-Something V1数据集上进行训练和测试，以提高分类网络的高准确性。另外，分类网络可以使用Python3语言进行编码，使用pytorch深度学习框架进行实施。

综上所述，本实施例提供的动作识别方法，通过获取图像帧序列；将图像帧序列输入预先训练的分类网络，得到图像帧序列对应的动作分类；其中，分类网络包括运动特征增强结构，运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；图像帧序列对应的动作分类结合前向运动特征差和后向运动特征差计算得到；可以解决由于现有很多基于运动特征增强的动作分类方法，仅考虑单向时序运动且仅考虑通道维度的增强，因此不能充分利用时序前后帧之间的运动特征，并且忽略了运动特征在空间维度上的分布强弱，即空间上哪些特征应当增强，哪些特征不应当增强，从而导致动作识别方法不具备良好的准确性和鲁棒性的问题；通过充分利用时序的双向运动信息，并加入到网络结构中训练，可促使网络提取到更强的运动特征，提高动作识别的准确性。

另外，本申请不同于以往技术将运动特征增强结构放置在基础网络的各个处理阶段之间，而是将双向时空运动增强模块放置在网络第一阶段网络和第二阶段网络之间，这个位置为处理浅层特征和深层特征的过渡阶段，更有利于视频信息的时序建模。在计算效率上，相比以往运动增强方法，计算量更小，更加灵活。并在实际安防视频人体行为分析应用中体现了很好的鲁棒性以及准确性。

图5是本申请一个实施例提供的动作识别装置的框图。该装置至少包括以下几个模块：获取模块510和分类模块520。

获取模块510，用于获取图像帧序列；

分类模块520，用于将所述图像帧序列输入预先训练的分类网络，得到所述图像帧序列对应的动作分类；

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的动作识别装置在进行动作识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将动作识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动作识别装置与动作识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本申请一个实施例提供的动作识别装置的框图。该装置至少包括处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的动作识别方法。

在一些实施例中，动作识别装置还可选包括有：外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，动作识别装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的动作识别方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的动作识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

获取图像帧序列；

其中，所述分类网络包括运动特征增强结构，所述运动特征增强结构用于提取相邻两帧图像帧之间的前向运动特征差和后向运动特征差；所述图像帧序列对应的动作分类结合所述前向运动特征差和所述后向运动特征差计算得到；

所述前向运动特征差为：第i帧图像帧的第一维度的图像特征与第i+1帧图像帧的平滑后的图像特征之差；

2.根据权利要求1所述的方法，其特征在于，所述运动特征增强结构包括二维的卷积层，所述二维的卷积层的输入通道数和输出通道数相同，并用于对所述第一维度的图像特征进行运动平滑。

3.根据权利要求1所述的方法，其特征在于，所述运动特征增强结构包括时空信息计算结构；

4.根据权利要求3所述的方法，其特征在于，所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征，包括：

计算变换后的所述时空概率图的平均值；

5.根据权利要求3所述的方法，其特征在于，所述基于所述时空概率图对所述第i帧图像帧对应的原始通道特征进行特征增强，得到增强后的运动特征之后，还包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述分类网络还包括基础网络，所述基础网络包括第一阶段结构和第二阶段结构，所述第一阶段结构用于提取图像的浅层特征，所述第二阶段结构用于提取图像的深层特征；所述运动特征增强结构位于所述第一阶段结构和所述第二阶段结构之间。

7.根据权利要求6所述的方法，其特征在于，所述将所述图像帧序列输入预先训练的分类网络，得到所述图像帧序列对应的动作分类，包括：

8.根据权利要求7所述的方法，其特征在于，所述通过所述第二阶段网络基于所述增强后的特征信息计算得到所述动作分类，包括：

9.一种动作识别装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的动作识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至8任一项所述的动作识别方法。