CN114926770A

CN114926770A - 视频动作识别方法、装置、设备和计算机可读存储介质

Info

Publication number: CN114926770A
Application number: CN202210610534.0A
Authority: CN
Inventors: 林子义; 耿世杰; 张仁瑞; 高鹏; 王晓刚; 代季峰; 乔宇; 李鸿升
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-19
Anticipated expiration: 2042-05-31
Also published as: CN114926770B

Abstract

本申请实施例公开了一种视频动作识别方法、装置、设备和计算机可读存储介质。该方法包括：利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系。利用可迁移的图像特征提取模型提取特征。基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量。根据重建查询向量进行动作类别预测，得到待识别视频的动作类别，提高了视频动作识别的准确性。

Description

视频动作识别方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频动作识别方法、装置、设备和计算机可读存储介质。

背景技术

视频的理解与识别是计算机视觉的基础任务之一。基于视频的人体动作识别可应用于多个领域，例如，行为分析、人机交互、公共安全、动作教学、特定动作识别等。

现有技术中，通过视频样本集对视频动作识别模型进行训练，然后，根据训练完成后的视频动作识别模型，对视频进行动作预测。视频动作识别模型具有提取视频特征、预测视频动作等功能，具有较多的权重系数。在训练过程中，需要对视频动作识别模型进行较为复杂的超参数调整，容易引起过拟合，以及，受限于视频数据集标签的有限性，降低了视频动作识别的准确性。

发明内容

本申请实施例提供一种视频动作识别方法、装置、设备和计算机可读存储介质，提高了视频动作识别的准确性。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种视频动作识别方法，所述方法包括：利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到所述各帧图像的初始图像特征和特征映射关系；基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

第二方面，本申请实施例提供一种视频动作识别装置，所述装置包括：特征提取模块，用于利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到所述各帧图像的初始图像特征和特征映射关系；确定模块，用于基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；预测模块，用于根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

第三方面，本申请实施例提供一种视频动作识别设备，所述设备包括：存储器，用于存储可执行计算机程序；处理器，用于执行所述存储器中存储的可执行计算机程序时，实现上述视频动作识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，存储有计算机程序，用于被处理器执行时，实现上述视频动作识别方法。

本申请实施例提供了一种视频动作识别方法、装置、设备和计算机可读存储介质。根据本申请实施例提供的方案，利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系。利用可迁移的图像特征提取模型提取特征，相比于直接对视频数据提取视频特征，保留了完整的图像特征。基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。通过在固定的图像级模型(即，图像特征提取模型)的基础上加上一个轻量的视频级模型，在训练阶段，不需要对图像级模型的参数进行调整，减少了训练时间。并且，利用视频级模型对完整的图像特征进行时间维度和动作维度的特征处理，以及全局特征聚合，提高了视频动作识别的准确性。

附图说明

图1为本申请实施例提供的一种视频动作识别方法的可选的步骤流程图；

图2为本申请实施例提供的另一种视频动作识别方法的可选的步骤流程图；

图3为本申请实施例提供的一种帧间注意力模块的可选的示意图；

图4为本申请实施例提供的一种解码器块的示例性示意图；

图5为本申请实施例提供的再一种视频动作识别方法的可选的步骤流程图；

图6为本申请实施例提供的一种多头注意力模块的可选的示意图；

图7为本申请实施例提供的一种图像特征提取模型的可选的示意图；

图8为本申请实施例提供的一种视频理解深度模型的示例性示意图；

图9为本申请实施例提供的一种解码模型训练方法的可选的步骤流程图；

图10为本申请实施例提供的一种视频动作识别装置的可选的结构示意图；

图11为本申请实施例提供的一种视频动作识别设备组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解的是，此处所描述的一些实施例仅仅用以解释本申请的技术方案，并不用于限定本申请的技术范围。

为了更好地理解本申请实施例中提供的视频动作识别方法，在对本申请实施例的技术方案进行介绍之前，先对相关技术进行说明。

随着视频设备和网络的普通，视频理解吸引了越来越多的关注。而识别视频中的动作是视频理解中的一个任务。与图像识别相比，视频内容更加复杂多变，视频分析需要更大量数据。

相关技术中，通过利用深度神经网络结构进行视频动作识别，实现了将深度学习应用于视频识别领域。以下列举四个示例对基于深度学习的视频理解方法进行说明。

示例一，设计了一种混合卷积与Transformer的结构，通过在网络前期使用卷积模块，后期使用Transformer模块，兼顾了效率与灵活性，从而创造出一种低计算量、高精度的模型结构。然而，上述改进模型结构是一种传统的方向，其仍面临一些限制因素，包括但不限于：(1)所提出的改进模型结构对硬件要求较高，尽管理论计算量低，但是模型的实际运行时间并未减少；(2)仅改进模型结构，往往会在扩大模型规模时遇到“数据瓶颈”，即受限于训练数据集的规模，当模型规模达到一定程度时，会由于愈发严重的过拟合现象而无法取得进一步的精度提升，从而仍然需要使用其他技术方案。

示例二，从有限量的数据中发掘额外的监督信号，作为额外任务来加强模型训练。该添加额外任务的预训练模型，是从一部分遮盖的图像中重建缺失的内容，使得较大的深度模型在数据量较少的情况下仍能达到较好的精度。上述技术方案的优点是不依赖于额外数据，但是模型的训练时间很长：尽管能达到更好性能，但是代价是数倍于常规训练的所需时间。

示例三，借助高性能的预训练模型，以常规的端到端微调方式将前述图像特征对应的模型迁移到视频理解任务中，也就是将图像特征的方法迁移到构建视频动作识别模型中，视频动作识别模型对视频进行视频特征提取，由于用作初始化的图像模型更强，所取得的视频理解精度也更强。然而，该技术方案使用了针对传统图像特征的迁移学习方法，视频动作识别模型具有较多的权重系数。在训练过程中，需要对视频动作识别模型进行较为复杂的超参数调整，即训练视频动作识别模型中全部的网络权重，导致训练时间较长。在训练过程中消耗大量的计算资源，图像特征迁移学习的时间仍存在改进空间。而且视频动作识别模型中较多的权重系数，容易引起过拟合。虽然采用了图像特征的迁移学习方法，但是其视频数据集的丰富程度远远不及图像数据集，受限于视频数据集标签的有限性，视频动作识别模型的训练效果较差，降低了模型的精度，从而降低了视频动作识别的准确性。

示例四、借助高性能的预训练模型，在固定的前述图像特征对应模型基础上，通过额外构建一组可学习的提示向量，将模型迁移到视频理解任务中。该技术方案尽管只引入了小部分重新训练的网络权重，但由于灵活性有限，迁移后的识别精度仍然与重新训练全部的网络权重有较大差距，降低了视频动作识别的准确性。

本申请实施例提供一种视频动作识别方法，如图1所示，图1为本申请实施例提供的一种视频动作识别方法的步骤流程图，视频动作识别方法包括以下步骤：

S101、利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系。

在本申请实施例中，待识别视频可以是一个已有视频的全部或部分。例如，从互联网上可获取一场骑行比赛的完整视频，可以将这场骑行比赛的完整视频作为待识别视频，也可以将这场骑行比赛的一部分作为待识别视频。待识别视频可以是符合视频技术中的所有编码格式的视频，例如，AVI、mov、rmvb、rm、FLV、mp4、3GP等编码格式，对此本申请实施例不做限制。

在本申请实施例中，采用端到端的视频理解深度模型对待识别视频进行动作类别的预测，视频理解深度模型包括预设图像特征提取模型和视频级模型。预设图像特征提取模型用于对待识别视频的多帧图像进行特征提取，得到初始图像特征，视频级模型用于对初始图像特征进行时间信息建模、全局特征聚合，以及动作类别的预测。其中，预设图像特征提取模型是指网络权重固定的图像特征提取模型，该预设图像特征提取模型是可迁移的图像特征提取模型，利用图像数据集进行训练得到，可以直接应用于本方案中的视频理解深度模型。

需要说明的是，在本申请实施例中的视频理解深度模型的训练过程中，不需要对预设图像特征提取模型进行训练，仅对视频理解深度模型中的视频级模型进行训练(即网络权重调整)即可。

在本申请实施例中，特征映射关系可以理解为线性投影(linear projections)关系，由于视频级模型输入的是查询向量Q(Query)、键向量K(Key)和值向量V(Value)。特征映射关系用于对各帧图像的初始图像特征进行线性变换，得到查询向量Q(Query)、键向量K(Key)和值向量V(Value)。

在本申请实施例中，可以通过预设图像特征提取模型对多帧图像的图像特征进行提取。预设图像特征提取模型可以理解为机器学习模型，可以是任意适当的、能够用于对图像进行图像特征提取的神经网络(Neural Networks，NN)模型，包括但不限于：LeNet模型、AlexNet模型、GoogleNet模型、ResNets模型、VGG模型、GAN网络、R-CNN网络和循环神经网络(Recurrent Neural Network，RNN)等，对此本申请实施例不做限制，只要该神经网络可以用于提取图像特征即可。

需要说明的是，也可以利用其他预训练网络作为图像特征提取模型，例如，利用多数据集上进行多任务训练所得模型、无标签训练所得模型、在大规模数据集上利用弱标签训练所得模型等等，对此本申请实施例不做限制。

S102、基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征。

在本申请实施例中，待识别视频是一系列具有时间关联的连续图像(即连续帧)，上述视频级模型包括解码模型和预测模型，解码模型可以理解为引入注意力(attention)模块的解码器。并且，解码模型还设置有额外的局部时间信息建模模块，用于提取初始图像特征中时间维度的特征和动作维度的特征。局部时间信息建模模块，用于发掘视频理解所需的时间信息和动作信息。局部时间信息建模模块对输入注意力模块的初始图像特征进行前期处理，将时间、动作等信息整合进去，使得初始图像特征经过时间信息模块调制之后，得到的目标图像特征包含了更加丰富的空间-时间信息。

示例性，通过时间信息建模，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，建立任意相邻帧的图像之间的注意力关系。示例性的，时间信息建模可以理解成建立待识别视频中某一对象分别在相邻帧的图像中的时间位置关系，例如，该对象位于上一帧图像的中间，该对象位于当前帧图像的右下角，该对象没有出现在下一帧图像，说明该对象是逐渐退出图像的场景。

S103、基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量。

在本申请实施例中，预设查询向量(Query，Q)表征待识别视频对应的向量，是一个可学习的参数。预设查询向量用于聚合图像中不同位置点的特征。预设查询向量用于对目标图像特征进行全局特征聚合，得到重建查询向量。

在本申请实施例中，标准的解码模型具有全局信息聚合的功能，通过引入注意力机制，基于预设查询向量，由注意力模块对初始图像特征进行平均池化与卷积操作，得到注意力权重。根据注意力权重进行全局特征聚合，得到重建查询向量，重建查询向量可以理解成融合了时间信息和空间信息的图像特征，提高了重建查询向量的完整性和准确性。

在本申请实施例中，输入注意力模块的是3个参数：预设查询向量Q、键向量K和值向量V，输出1个输出结果(融合了全局信息之后的Q)，其中，预设查询向量Q、键向量K、值向量V，以及输出结果均是若干特征组成的特征矩阵，预设查询向量Q和输出结果的特征数量相同，键向量K和值向量V的特征数量相同。键向量K和值向量V是根据特征映射关系对目标图像特征进行变换得到的。计算键向量和预设查询向量之间的注意力关系，然后基于该注意力关系在值向量中进行特征聚合，输出重建查询向量。

在本申请实施例中，解码模型可以理解为机器学习模型，可以是任意适当的、能够用于对初始图像特征进行时间信息建模和全局特征聚合的神经网络(Neural Networks，NN)模型。示例性的，可以是任意结构的基于Transformer结构的解码器(decoder)，对此本申请实施例不作限制。

S104、根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在本申请实施例中，可以采用视频级模型中的预测模型对重建查询向量进行动作类别预测，得到待识别视频的动作类别。示例性的，预测模型可以是全连接层(也可以称为线性层)，在进行动作类别预测时，预测模型可以理解成一个包括多个已知动作类别对应向量的矩阵，将该矩阵与重建查询向量叉乘，计算矩阵与重建查询向量之间的相似度，线性地产生对各个动作类别的预设分数(是一个数值)。可以将多个动作类别的预测分数中的最大值对应的动作类别，作为待识别视频的动作类别。

需要说明的是，上述计算矩阵与重建查询向量之间的相似度，包括但不限于以下形式：余弦相似度(cosine)、欧氏距离(Euclidean)、曼哈顿距离(Manhattan distance)、皮尔逊相关系数(Pearson correlation coefficient，PC)、斯皮尔曼(等级)相关系数(Spearman Rank Correlation，SRC)、杰卡德相似系数(Jaccard距离)、SimHash+汉明距离(Hamming Distance)等，对此本申请实施例不作限制。

相比于相关技术中示例一和示例二中的技术方案，本申请实施例充分利用了通用计算机视觉深度学习模型方面的最新进展，提出了一种在已有的、可被多种视觉任务共享的高质量通用视觉模型的新形势下，快速构建视频理解深度学习模型的方式。相比于相关技术中示例三和示例四中的技术方案，本申请实施例充分利用了图像特征的可迁移性，直接利用可迁移的图像级模型(即，预设图像特征提取模型)，在训练阶段，不需要对图像级模型的参数进行调整，降低了视频级模型的训练时间。并且，由于图像特征所包含的图像信息的完整性远远大于视频特征，图像数据集标签的丰富程度远远大于视频数据集标签，提高了模型精度，从而提高了视频动作识别的准确性。

根据本申请实施例提供的方案，利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系。利用可迁移的图像特征提取模型提取特征，相比于直接对视频数据提取视频特征，保留了完整的图像特征。基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。通过在固定的图像级模型(即，图像特征提取模型)的基础上加上一个轻量的视频级模型，在训练阶段，不需要对图像级模型的参数进行调整，减少了训练时间。并且，利用视频级模型对完整的图像特征进行时间信息建模和全局特征聚合，提高了视频动作识别的准确性。

在一些实施例中，如图2所示，图2为本申请实施例提供的另一种视频动作识别方法的步骤流程图，上述图1中S102可以包括S1021-S1024。

S1021、在时间维度上，对各帧图像的初始图像特征进行深度可分卷积，得到各帧图像的第一图像特征。

在本申请实施例中，由于任意相邻帧的图像之间存在时间联系，不是独立存在的。在得到各帧图像的初始图像特征之后，在时间维度上，可以通过采用卷积核大小为3的卷积层(3×3卷积核conv.)对各帧图像的初始图像特征进行深度可分卷积，得到各帧图像的第一图像特征，实现时间维度卷积。通过增加时间维度(连续帧)，可以提取相邻帧的图像之间的时间特征。实现了提取各帧图像对应的时间之间的某种相关性。

在本申请实施例中，标准的卷积计算使用权重矩阵实现了空间维和通道(深度)维特征的联合映射(joint mapping)，但代价是高计算复杂度、高内存开销和大量的权重系数。本申请实施例的深度可分卷积(depthwise separable convolution)是卷积神经网络中对标准的卷积计算进行改进所得到的算法，其通过拆分空间维度和通道(深度)维度的相关性，通过对空间维和通道维分别进行映射并将结果进行组合，在保留了卷积核的表征学习(representation learning)能力的同时，减少了卷积计算所需要的权重系数个数，提高了卷积核参数的使用效率，减少了计算时间和计算资源消耗。

S1022、基于特征映射关系，对各帧图像的初始图像特征进行帧间注意力建模，确定各帧图像的第二图像特征。

在本申请实施例中，上述S103中注意力模块对目标图像特征进行全局特征聚合，实质上是计算同一帧图像中的键向量和预设查询向量之间的注意力关系，然后基于该注意力关系在对应的值向量中进行特征聚合。在本方案中，还根据特征映射关系和各帧图像的初始图像特征，建立任意相邻帧的图像之间的注意力关系，从而实现帧间注意力建模，得到各帧图像的第二图像特征。

在一些实施例中，特征映射关系包括各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系。上述S1022可以包括S1022a和S1022b。

S1022a、根据各帧图像对应的图像查询向量、各帧图像对应的第一键投影关系和各帧图像的初始图像特征，计算多帧图像中任意相邻帧的图像之间的帧间聚合权重，得到各帧图像的帧间注意力关系。

在本申请实施例中，预设特征提取模型对各帧图像进行特征提取，输出各帧图像的初始图像特征、各帧图像对应的图像查询向量，以及各帧图像对应的第一键投影关系。各帧图像对应的图像查询向量与上述S103中预设查询向量不同，预设查询向量是待识别视频对应的查询向量，用于聚合多帧图像的全局特征，而本步骤中每帧图像对应的图像查询向量用于聚合该帧图像中各个位置点的特征。例如，将每帧图像划分为14×14个小网格，对每个小网格进行图像特征提取，该帧图像对应的特征图网格是14×14，该帧图像对应的图像查询向量的数量为14×14个。

在本申请实施例中，第一键投影关系可以理解成一个用于转换维度的向量，用于对初始图像特征进行线性变换，得到第一键向量，使得第一键向量的维度与图像查询向量的维度一致。图像查询向量和第一键向量的数量一致，在计算帧间聚合权重时，是将图像查询向量和第一键向量点乘得到的，可以理解为，计算图像查询向量和第一键向量之间的相似度。

需要说明的是，本申请实施例中第一和第二只是为了区分名称，并不代表顺序关系，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，例如，第一键向量和第二键向量，第一键投影关系和第二键投影关系，第一帧间聚合权重和第二帧间聚合权重。

在一些实施例中，上述S1022a通过以下方式实现。根据上一帧图像对应的第一键投影关系，对当前帧图像的特征进行线性变换，得到当前帧图像对应的第一键向量，从而得到各帧图像对应的第一键向量；根据当前帧图像对应的图像查询向量和上一帧图像的第一键向量，计算第一帧间聚合权重；根据当前帧图像对应的图像查询向量和下一帧图像的第一键向量，计算第二帧间聚合权重；根据各帧图像的第一帧间聚合权重和各帧图像的第二帧间聚合权重，确定各帧图像的帧间注意力关系。

在本申请实施例中，通过将当前帧图像对应的图像查询向量与上一帧图像的键向量点乘，以及，将当前帧图像对应的图像查询向量与下一帧图像的键向量点乘，得到两个帧间聚合权重，从而得到该帧图像的帧间注意力关系，帧间注意力关系也可以称为帧间注意力关系图。根据帧间注意力关系可以知道处于当前帧图像中左上位置的对象，分别在上一帧图像和下一帧图像中的位置在哪里。

S1022b、对帧间注意力关系进行线性变换，使得帧间注意力关系的维度与各帧图像的初始图像特征的维度相同，得到各帧图像的第二图像特征。

在本申请实施例中，对于每帧图像，由于帧间注意力关系包括两次帧间聚合权重的计算，因此，帧间注意力关系与初始图像特征的维度不相同。在将帧间注意力关系与初始图像特征进行相加合并时，需要两者维度一致，因此，还需要根据预设映射关系对帧间注意力关系进行线性变换，使得帧间注意力关系的维度与初始图像特征的维度相同，得到各帧图像的第二图像特征。

需要说明的是，上述预设映射关系是一个可学习的线性变换，可以理解成一个用于转换维度的向量，可以由本领域技术人员根据实际情况进行设置，只要能够对帧间注意力关系的维度进行变换，使得其与初始图像特征的维度一致即可，对此本申请实施例不做限制。

在本申请实施例中，上述S102中局部时间信息建模模块可以包括帧间注意力模块，用于实现S1022a中帧间聚合权重的计算和S1022b中线性变换，得到第二图像特征。为更好的理解如何利用帧间注意力模块计算相邻帧之间帧间聚合权重，以及通过线性变换实现维度的统一，下面列举一个具体的示例进行说明，如图3所示，图3为本申请实施例提供的一种帧间注意力模块的可选的示意图。预设图像特征提取模型包括多层子网络，各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征，每层网络的输出结果，用于对应解码器块的输入。此处，以图像特征提取模型的第N层子网络输出的第T帧图像和第T+1帧图像为例进行说明。

示例性的，图3中第T帧图像对应的Q向量组(即第一图像查询向量)和第T-1帧图像对应的K投影参数(即第一键投影关系)，均是来自于图像特征提取模型第N层子网络输出的中间特征，第T-1帧图像对应的K投影参数用于对第T帧图像的初始子特征进行线性变换，得到第T帧图像对应的K向量组(即第一键向量)，因此，帧间注意力模块不需要学习新的Q向量组、K投影参数。

示例性的，以Q向量组和K向量组均是14×14×768维的向量为例进行说明，14×14表示每帧图像被划分的14×14个小网格，768表示每个小网格对应的特征长度。在维度的特征长度上将Q向量组和K向量组均分为12组，每一组中的Q向量组和K向量组均是14×14×64维的向量，图3中以第一组为例，计算相邻帧间关联关系，该关联关系的维度是(14×14)×(14×14)。对前述划分为12组的Q向量组和K向量组，均进行相邻帧间关联关系的相同操作，将得到的结果(12组关联关系)求平均，得到最终的关联关系(即第T帧图像的帧间注意力关系)，最终的关联关系的维度是(14×14)×(14×14)。最终的关联关系可以理解为融合了帧间特征后的Q向量组，对于每个Q向量组，将其线性投影到与特征长度(768)相同，得到帧间注意力特征(即第二图像特征)，帧间注意力特征的维度是14×14×768。图3示出的是一帧图像的处理过程，因此，视频级数据的特征形状仍然为8×14×14×768，8表示时间长度。若T+1帧后超出范围(超过最后一帧，或在第一帧之前)，简单将所用向量填充为0。

在本申请实施例中，上述图3中通过将Q向量组和K向量组进行分组，然后分组求关联关系再融合的过程，类似于多头注意力机制，提高了关联关系的准确性。

需要说明的是，上述计算第T帧图像和第T+1帧图像之间帧间聚合权重的方法同样适用于第T帧图像和第T-1帧图像，对此本申请实施例不做限制。上述8×14×14×768是为了方便介绍分组和线性变换时的举例说明，实际使用中对各个维度的具体数值均没有限制。

S1023、根据预设时间位置向量和各帧图像的初始图像特征，对各帧图像的时间位置进行编码，得到各帧图像的第三图像特征。

在本申请实施例中，预设时间位置向量是一个可学习的向量，用于对每一个时间点(即每帧图像)引入一个时间位置，第三图像特征是添加了时间信息的特征。例如，以视频类别是将物品放置在托盘上为例进行说明，通过对每帧图像进行时间位置编码，可以知道该视频是将物品放置在托盘上，而不是将物品从托盘上取走。

S1024、根据各帧图像的初始图像特征、各帧图像的第一图像特征、各帧图像的第二图像特征和各帧图像的第三图像特征，确定各帧图像的目标图像特征。

在本申请实施例中，第一图像特征、第二图像特征和第三图像特征均是对初始图像特征进行额外的时间信息补充，因此，对于每帧图像，还需要将第一图像特征、第二图像特征和第三图像特征与初始图像特征相加，从而得到各帧图像的目标图像特征。

需要说明的是，在对初始图像特征进行时间维度和动作维度的特征处理时，可以对初始图像特征进行以上深度可分卷积、帧间注意力建模和时间位置编码中任一项处理；或者，对深度可分卷积、帧间注意力建模和时间位置编码中至少两项以上的处理。然后与初始图像特征相加，得到目标图像特征，从而实现对初始图像特征的时间信息建模，对此本申请实施例不做限制。

在本申请实施例中，通过对各帧图像的初始图像特征进行时间维度卷积和时间位置特征编码的处理，实现了对初始图像特征进行时间维度的特征处理。通过对各帧图像的初始图像特征进行帧间注意力关系的处理，实现了对初始图像特征进行动作维度的特征处理。将初始图像特征，加上时间维度卷积的结果、帧间注意力关系线性投影后的结果、相应时间位置对应的位置向量，得到目标图像特征。使得初始图像特征经过时间维度和动作维度的特征处理(即经过时间信息模块调制)之后，包含了更加丰富的空间-时间信息，提高了目标图像特征的完整性和准确性。

需要说明的是，本申请实施例也可以利用其他方法处理帧间注意力关系得到动作信息，例如，利用卷积网络、多层感知机等复杂子网络结构对帧间注意力关系进行处理，对此本申请实施例不做限制。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在本申请实施例中，上述解码模型可以包括多个解码器块，每个解码器块均用于进行时间维度和动作维度的特征处理，下一个解码器块的输入是上一个解码器块的输出，各个解码器块对输入数据所执行的步骤均相同，仅仅是输入数据不同。相对应的，预设图像特征提取模型包括多层子网络，各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征，每层网络的输出结果，用于对应解码器块的输入。以其中任意一个解码器块的执行过程为例进行说明。如图4所示，图4为本申请实施例提供的一种解码器块的示例性示意图。图4中以解码器块M为例进行说明，图4中X_T表示第M层(与解码器块M对应的第M层子网络)、第t帧、位于特征图网格横坐标为w，纵坐标为h位置的特征，CLS表示预设查询向量Q。

在本申请实施例中，标准的基于Transformer结构的解码器包括注意力模块，其具有全局信息聚合的功能，相较于标准的解码器，图4中解码器块还具有额外的局部时间信息建模模块，用于发掘视频理解所需信息。示例性的，根据各帧图像(图4中以X₁、X₂、…X_T-1、X_T表示)对应的第一键投影关系，将各帧图像的初始图像特征进行线性变换，得到的K向量组(图4中未示出)；根据各帧图像对应的图像查询向量和K向量组，对输入注意力模块的图像特征进行前期处理，将时间、动作等信息整合进去。本申请实施例利用三种子模块提取时间信息：时间维度卷积、帧间注意力关系图以及时间位置特征编码，以下分别进行说明。

示例性的，为实现时间维度卷积，在预设图像特征提取模型所得的每层特征(包括多帧图像的初始子特征)的时间维度上，进行核大小为3的深度可分卷积，得到时间维度卷积的结果(即第一图像特征)。

示例性的，图像特征提取模型可以理解成基于Transformer结构的编码器，为实现帧间注意力关系，提取图像特征提取模型中编码器所用的各帧图像的Q向量组(即，各帧图像对应的图像查询向量)和各帧图像的K向量组的映射关系(即，各帧图像对应的第一键投影关系)。根据各帧图像的K向量组的映射关系，将各帧图像的初始子特征进行线性变换，得到K向量组。并在每对相邻帧的图像对应的Q向量组、K向量组之间计算新的注意力关系，得到帧间注意力关系图，并将注意力关系图线性投影到与前述图像特征提取模型的每层特征相同的维度上，得到帧间注意力关系图线性投影之后的结果(即第二图像特征)。

示例性的，为实现时间位置特征编码，在每层特征中为每一个时间点(每帧图像)引入一个可学习的位置向量，实现对各帧图像的时间位置进行编码，得到相应时间位置对应的位置向量(即第三图像特征)。

在本申请实施例中，预设图像特征提取模型的输出结果(各帧图像的初始图像特征)，在输入到注意力模块之前，会加上以上三种模块的输出，即初始图像特征加上时间维度卷积的结果、帧间注意力关系图线性投影之后的结果，以及相应时间位置对应的位置向量，得到目标图像特征。

在本申请实施例中，如图4所示，解码器块主要由两个部分构成：多头注意力模块和一个多层感知机。多头注意力模块用于动态计算同一帧图像中Q向量与K向量组之间的注意力关系，根据每个Q向量与K向量组的不同注意力关系，以不同的权重从V向量组中聚合特征，由于每个Q向量分别从V向量组中聚合特征，输出的向量数和Q向量的个数相同。多层感知机是一个由全连接层、非线性层交替叠加形成的子神经网络，其对输入的每个特征进行相同、独立的处理，因此，特征的维度可能改变，但特征的个数保持相同。

本申请实施例在固定的图像特征提取模型基础之上，学习一个轻量级的附加结构(视频级模型)以实现视频理解任务。在固定的初始图像特征上进行时间信息建模，通过时间维度卷积和时间位置特征编码实现时间维度特征的处理，通过帧间注意力关系图实现动作维度特征的处理。初始图像特征经过时间信息模块调制之后，包含了更加丰富的空间-时间信息，提高了目标图像特征的完整性和准确性。

在一些实施例中，特征映射关系包括第二键投影关系和值投影关系，上述图1中S103可以包括S1031-S1034。如图5所示，图5为本申请实施例提供的再一种视频动作识别方法的步骤流程图。

S1031、分别根据第二键投影关系和值投影关系，对各帧图像的目标图像特征进行线性变换，得到各帧图像的第二键向量和各帧图像的值向量。

在本申请实施例中，根据第二键投影关系，对各帧图像的目标图像特征进行线性变换，得到各帧图像的第二键向量；根据值投影关系，对各帧图像的目标图像特征进行线性变换，得到各帧图像的值向量。第二键投影关系和值投影关系可以理解成一个用于转换维度的向量，用于对目标图像特征进行线性变换，得到键向量和值向量，键向量和值向量一一对应，键向量和值向量的维度一致。

S1032、根据预设查询向量和各帧图像的第二键向量，计算各帧图像的帧内聚合权重。

在本申请实施例中，预设查询向量与第二键向量在纵向长的维度一致，在计算帧内聚合权重时，是将预设查询向量和第二键向量进行点乘得到的，可以理解为，计算预设查询向量和第二键向量之间的相似度。

需要说明的是，上述图像查询向量和第一键向量的维度一致，在计算帧间聚合权重时，将图像查询向量和第一键向量点乘得到一个数值。本示例中，预设查询向量在纵向上的维度与第二键向量在纵向长的维度一致，计算帧内聚合权重时，将预设查询向量和第二键向量点乘得到一个或多个数值。

S1033、根据各帧图像的帧内聚合权重，在各帧图像的值向量中进行全局特征聚合，得到全局聚合特征。

在本申请实施例中，帧内聚合权重可以理解为各帧图像中各个位置点之间的注意力关系，根据该注意力关系在第二键向量对应的值向量中进行全局特征聚合，得到全局聚合特征。

在一些实施例中，上述S1032和S1033可以通过以下方式实现。按照向量维度，对预设查询向量、各帧图像的第二键向量和各帧图像的值向量分别进行分组，得到多组子查询向量、各帧图像的多组子键向量和各帧图像的多组子值向量；子查询向量、子键向量和子值向量一一对应；根据各组子查询向量和各组子键向量，计算各组子键向量对应的帧内聚合权重；分别根据各组子键向量对应的帧内聚合权重，在子键向量对应的子值向量中，进行全局特征聚合，得到各组子查询向量对应的聚合特征，从而得到全局聚合特征，全局聚合特征包括各帧图像的多组子查询向量对应的聚合特征。

在本申请实施例中，由于在计算帧内聚合权重时，是将子查询向量和子键向量点乘得到的，因此，在对预设查询向量、各帧图像的第二键向量和各帧图像的值向量进行分组时，需要分组后得到的每组子查询向量和子键向量在纵向上的维度一致。子键向量和子值向量一一对应，子键向量和子值向量的数量一致、维度一致。

在本申请实施例中，通过将预设查询向量、第二键向量和值向量进行分组，并根据子查询向量分别对每组子键向量进行帧内聚合权重的计算，以及在每组子值向量中进行全局特征聚合，从而得到全局聚合特征，提高了全局聚合特征的完整性和准确性。

本申请实施例采用多头注意力(multihead attention)模块实现全局特征聚合，以分组的数量是h组为例进行说明，采用h组不同的线性投影(即，第二键投影关系和值投影关系对应的分为h组)变换查询向量、键向量和值向量。然后，将h组变换后的查询向量、键向量和值向量，并行地送到多头注意力模块中。然后，将这h个注意力汇聚的输出拼接在一起，并且可以通过另一个可以学习的线性投影进行变换，产生全局聚合特征。全局聚合特征是聚合了各帧图像的多组子查询向量对应的聚合特征之后的特征，对于h个注意力汇聚输出，每一个注意力汇聚都被称作为一个头(head)。相较于只使用单独一个注意力模块实现全局特征聚合的方案，多头的本质是多个独立的注意力计算，作为一个集成的作用，防止过拟合，提高全局聚合特征的准确性。

在本申请实施例中，解码器块中的多头注意力模块用于实现上述S1031-S1033，如图6所示，图6为本申请实施例提供的一种多头注意力模块的可选的示意图。图6中示出了视频级网络中解码模型中一个解码器块的多头注意力模块。为便于与下图7中数据进行比较，将图6中输入参数、中间处理参数和最终输出参数的不同之处采用虚线方框示出。

示例性的，图像特征提取模型的第N层子网络输出8×14×14×768维向量，也就说输出特征的形状是8×14×14×768，其中，8表示时间长度，14×14表示每帧图像的空间尺寸，即14×14个小网格，768表示每个小网格上对应的特征长度。分别根据K投影参数和V投影参数，对该特征进行线性变换，得到K向量组和V向量组，投影参数能够保持向量组的形状不变。图6以第M层解码器块为例进行说明，输入到第M个解码器块的Q向量组是第M-1个解码器块的输出，输入第一个解码器块的Q向量组为一个固定向量，即预设查询向量，该Q向量组的维度是1×768。在维度的特征长度上将Q向量组、K向量组和V向量组均分为12组，每一组中的Q向量组是1×64维的向量，每一组中K向量组和V向量组均是8×14×14×64维的向量。针对同一组的Q向量组和K向量组，计算每帧图像的帧内的关联关系，依次针对每帧图像，计算同一Q向量组(1×64维的向量)和K向量组(14×14×64维的向量)之间的关联关系，得到该帧图像的关联关系，其维度是1×(14×14)，从而得到的所有帧图像的关联关系，其维度是1×(8×14×14)。该帧图像的关联关系可理解为用于聚合帧内信息的Q向量组(也可以理解为视频帧内聚合信息)，对唯一的Q向量组，依据其与每个K向量组的关联关系，将对应位置的V向量组加权平均，得到聚合后向量组，其维度是1×64，对前述划分为12组的Q向量组、K向量组和V向量组，每组进行帧内关联关系的相同操作，然后沿向量(长度特征)方向拼接，得到拼接后向量组(即全局聚合特征)，其维度是1×768。

需要说明的是，此处使用8×14×14×768以及1×768是为了方便介绍分组和线性变换时的举例说明，实际使用中对各个维度的具体数值均没有限制。

S1034、对全局聚合特征进行深度信息提取，得到重建查询向量。

在本申请实施例中，可以采用多层感知机对全局聚合特征进行深度信息提取，得到重建查询向量。多层感知机是一个由全连接层、非线性层交替叠加形成的子神经网络，其对输入的每个特征进行相同、独立的处理，因此，特征的维度可能改变，但特征的数量保持相同。由于全局聚合特征是由预设查询向量聚合了目标图像特征各个位置点的信息之后得到的，因此，全局聚合特征的数量与预设查询向量的数量一致，重建查询向量的数量与预设查询向量的数量一致。

在本申请实施例中，根据第二键投影关系和值投影关系，对目标图像特征进行线性变换，得到第二键向量和值向量；根据预设查询向量、第二键向量和值向量进行注意力关系的计算，得到全局聚合特征；再对全局聚合特征进行深度信息提取，得到重建查询向量。重建查询向量是充分融合了时间信息、动作信息和全局空间信息的图像特征，提高了重建查询向量的准确性。

在一些实施例中，预设图像特征提取模型包括多层子网络，上述图1中S101可以通过以下方式实现。利用多层子网络，对各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系；其中，各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征，每层子网络中各帧图像的初始子特征包括该帧图像对应的特征图网格上各个位置点的特征；特征映射关系包括各层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，以及各层子网络对应的第二键投影关系和各层子网络对应的值投影关系。

在本申请实施例中，利用固定的图像特征提取模型对待识别视频的多帧图像独立的提取特征，得到各帧图像的初始图像特征。“固定”表示图像特征提取模型在训练过程中不更新权重。图像特征提取模型会对每帧图像提取多层次的、空间网格形特征。结合多帧信息，图像特征提取模型所提取的图像特征表示为X∈R^{L×T×H×W×C}，即X(l,t,h,w)为第l层、第t帧，位于特征图网格横坐标为w，纵坐标为h位置的特征，该特征是一维度为C的向量。

在本申请实施例中，预设图像特征提取模型包括多层子网络，多层子网络依次对多帧图像进行图像特征提取，下一层子网络对上一层子网络输出的结果再次进行处理，依次类推，最后一层子网络输出最终的图像特征，每层子网络均可以输出图像特征，其包括各帧图像的初始子特征。示例性的，一个图像特征提取模型包括十几层子网络，可以对最后M层子网络输出的图像特征进行下一步的解码处理(包括时间信息建模和全局特征聚合)，以及动作类型预测，M为大于1的整数，例如，M取4，对此本申请实施例不做限制。

在本申请实施例中，上述预设图像特征提取模型的每层子网络可以理解成一个编码模块，如图7所示，图7为本申请实施例提供的一种图像特征提取模型的可选的示意图。图像特征提取模型在提取到图像特征之后，还需要经过编码模块进行编码，图7示出了图像特征提取模型的一个编码模块，Q投影参数、K投影参数和V投影参数均可学习的线性投影，投影参数均是在图像特征提取模型的训练过程中学习，在视频级模型的训练过程中固定。图像特征提取模型包括多个图7中示出的编码模块，各个编码模块的投影参数(Q投影参数、K投影参数和V投影参数)的权值是相互独立的。为便于与上图6中数据进行比较，将图7中输入参数、中间处理参数和最终输出参数的不同之处采用虚线方框示出。

示例性的，图像特征提取模型的第N层子网络输出8×14×14×768维向量，也就说输出特征的形状是8×14×14×768，其中，8表示时间长度，14×14表示每帧图像的空间尺寸，即14×14个小网格，768表示每个小网格(每个位置)上对应的特征长度。分别根据Q投影参数、K投影参数和V投影参数，对该特征进行线性变换，得到Q向量组、K向量组和V向量组，投影参数能够保持向量组的形状不变。在维度的特征长度上将Q向量组、K向量组和V向量组均分为12组，每一组中的Q向量组、K向量组和V向量组均是8×14×14×64维的向量。针对同一组的Q向量组和K向量组，计算每帧图像的帧内的关联关系，依次针对每帧图像，计算其对应的Q向量组和K向量组(均是14×14×64维的向量)之间的关联关系，得到该帧图像的关联关系，其维度是(14×14)×(14×14)，从而得到的所有帧图像的关联关系，其维度是8×[(14×14)×(14×14)]。该帧图像的关联关系可理解为用于聚合帧内信息的Q向量组(也可以理解为每帧内聚合信息)，对每个Q向量组，依据其与每个K向量组的关联关系，将对应位置的V向量组加权平均，得到聚合后向量组，其维度是8×14×14×64，对前述划分为12组的Q向量组、K向量组和V向量组，每组进行帧内关联关系的相同操作，然后沿向量(长度特征)方向拼接，得到拼接后向量组(即每层子网络输出的多帧图像的初始子特征)，其维度是8×14×14×768。

需要说明的是，上述图7示出的编码模块是一个通用的神经网络组成模块，本申请实施例是基于该编码模块构建视频理解深度模型的总体网络结构。这里介绍图像特征提取模型，是为了说明各帧图像的维度需要前后一致，以便后后续进行帧内注意力关系和帧间注意力关系的计算，对于分组、关联关系计算等步骤造成的维度不一致，需要通过线性变换使得维度统一。图7中示出的编码模块(理解为编码器)与图6中多头注意力模块(理解为解码器)存在区别，尽管编码模块有部分操作和多头注意力模块相同，但两者相应的投影参数不同，图6中的投影参数是通过在视频数据上对视频级模型进行训练得到，图7中的投影参数是在图像特征提取模型的训练过程中学习，在视频级模型的训练过程中固定。另外，此处使用8×14×14×768是为了方便介绍分组和线性变换时的举例说明，实际使用中对各个维度的具体数值均没有限制。

在本申请实施例中，由于每层特征(每层子网络输出的图像特征)中各帧图像对应的初始子特征包括多个特征图网络位置的子特征，例如，特征图网格是14×14，也就是将每帧图像划分为14×14个小网格，对每个小网格进行图像特征提取，相比于对整帧图像进行图像特征提取所得到的图像特征，该初始子特征是高分辨率的网络形特征。因此，该图像特征提取模型所提取的图像特征是一个多层的、高分辨率、多帧堆叠的网络形特征，初始图像特征包含丰富的空间信息。

在一些实施例中，上述图1中S102-S104可以通过以下方式实现。利用视频级模型，基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；以及，根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在本申请实施例中，上述S102-S104可以由视频级模型实现，将特征映射关系和预设查询向量输入视频级模型，输出待识别视频的动作类别。

在一些实施例中，视频级模型包括解码模型和预测模型；上述图1中S102-S104还可以通过以下方式实现。利用解码模型，基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；以及，基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；利用预测模型，根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在本申请实施例中，上述S102和S103可以由解码模型执行，上述S104可以由预测模型执行。将特征映射关系和预设查询向量输入解码模型，输出重建查询向量，将重建查询向量输入预测模型，输出待识别视频的动作类别。上述S104可以由预测模型(例如，全连接层)执行。

在一些实施例中，预设图像特征提取模型包括多层子网络；解码模型包括多个级联堆叠的解码器块；多个级联堆叠的解码器块的数量与多层子网络的数量一致；各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征；特征映射关系包括各层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，以及各层子网络对应的第二键投影关系和各层子网络对应的值投影关系。

上述利用解码模型确定重建查询向量的过程，可以通过以下方式实现。利用第一解码器块，基于第一层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，对各帧图像在第一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定各帧图像的第一目标图像特征；第一目标图像特征为第一层子网络对应的目标图像特征；基于预设查询向量、第一层子网络对应的第二键投影关系和第一层子网络对应的值投影关系，对第一目标图像特征进行全局特征聚合，确定第一查询向量；继续利用下一个解码器块，基于下一层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，对各帧图像在下一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定各帧图像的下一个目标图像特征；下一个目标图像特征为下一层子网络对应的目标图像特征；基于上一个解码器块输出的上一个查询向量、下一层子网络对应的第二键投影关系和下一层子网络对应的值投影关系，对下一个目标图像特征进行全局特征聚合，直至完成对最终的目标图像特征进行全局特征聚合时为止，得到重建查询向量，最终的目标图像特征为最后一层子网络对应的目标图像特征。

在本申请实施例中，在实际应用过程中，解码模型可以包括多个解码器块，相对应的，预设图像特征提取模型包括多层子网络，每个解码器块对每层子网络中的初始子特征(包括多帧图像的初始子特征)执行上述S102和S103，第M个解码器块的输入是第M-1个解码器块输出的查询向量以及第M层子网络中的初始子特征，以此类推，循环执行上述S102和S103，从而输出最终的重建查询向量。在时间维度和动作维度的特征处理，以及全局特征聚合的过程中，查询向量Q贯穿其中，对于每层子网络中的初始子特征，通过每次的时间维度、动作维度的特征处理和全局特征聚合的步骤，查询向量Q的C维度上的信息发生改变，最后输出的重建查询向量即为融合了每层网络的初始子特征的空间信息和时间信息的图像特征。通过多个级联堆叠的解码器块进行多次的时间维度、动作维度的特征处理和全局特征聚合的处理，提高了重新查询向量的完整性和准确性。

需要说明的是，本申请实施例也可以利用其他网络结构替代多层解码器块进行视频级信息融合，例如，仅使用多层感知机的结构等等，对此本申请实施例不做限制。

本申请实施例提供了一种端到端的视频理解深度模型，如图8所示，图8为本申请实施例提供的一种视频理解深度模型的示例性示意图。图8中视频理解深度模型包括预设图像特征提取模型(图8中以可迁移的图像特征提取模型示出)和视频级模型，预设图像特征提取模型是指网络权重固定的图像特征提取模型，可以理解为图像级模型，该预设图像特征提取模型是可迁移的图像特征提取模型，可以是利用图像数据集进行训练得到，直接应用于本方案中的视频理解深度模型。预设图像特征提取模型用于对待识别视频的多帧图像(图8中以f₁、f₂、f₃、f₄…f_T示出)进行特征提取，得到各帧图像的初始图像特征。视频级模型包括解码模型和预测模型，解码模型包括多个解码器块(图8中以M个解码器块示出)。

在本申请实施例中，在介绍解码模型之前，先对基于transformer结构的编码器(encoder)和解码器(decoder)的注意力机制(attention)进行说明，本申请实施例中的预设图像提取模型可以理解为编码器，视频级模型可以理解为解码器。在编码器—解码器的attention机制中，预设查询向量(Query)来自前面一层的解码器，而键向量(key)和值向量(value)来自编码器的输出，即，键投影关系、值投影关系和图像特征来自预设图像提取模型的输出。这使得解码器中的每个位置都能关注到输入序列中的所有位置。

示例性的，encoder包含self-attention层，在其self-attention层中，所有key、value和query来自同一个地方，即编码器中前一层的输出。在这种情况下，编码器中的每个位置都可以关注到上一层编码器的所有位置。解码器包含self-attention层，在其self-attention层允许解码器中的每个位置都关注解码器层中当前位置之前的所有位置(包括当前位置)。也就是说，对于基于Transformer的编码器和解码器，K和V输入相同。如果在此基础上，Q、K和V三个输入都相同，则称为编码器，否则称为解码器。

本申请实施例提供的视频级模型，视频级模型包括基于Transformer结构的M层解码器块和全连接层，用于将该多层、高分辨率、多帧堆叠的图像特征综合成视频级的类别预测。图8中解码模型包括M个解码器块，相对应的，预设图像特征提取模型包括M层子网络。每个解码器块对每层子网络中的初始子特征(包括多帧图像的初始子特征)进行时间维度和动作维度的特征处理，以及全局特征聚合。第M个解码器块输入的是第M-1个解码器块输出的查询向量以及第M层子网络中的初始子特征(图8中以K和V进行示出)，K和V是根据第M-1层子网络输出的键投影关系和值投影关系，将第M层子网络中的初始子特征进行线性变换得到的。以此类推，最后一个解码器块输出重建查询向量。每个解码器块接受3个输入参数：预设查询向量Q、键向量K(Key)和值向量V(Value)，产生1个输出结果，其中Q、K、V及输出结果均为若干特征组成的特征矩阵，Q和输出结果的特征数量相同，K和V的特征数量相同。

在本申请实施例中，视频级模型包括1个可学习的初始查询向量Q(图8中以CLS示出)，多个级联堆叠的解码器块(相当于解码模型)，以及一个全连接层(相当于预测模型)，全连接层用于根据最后一个解码器块输出的重建查询向量线性地产生对于每一个动作类别的预测分数。图8中最终输出的是动作类别是“将物品放置在托盘上”。

本申请实施例提供了一种高效的视频理解深度模型的训练流程，通过在固定的图像级模型(预设图像提取模型)之上训练一个轻量的视频级模型，实现时间维度的特征处理、动作维度的特征处理，以及多帧信息融合(全局特征聚合)等操作，进而实现视频信息理解。

在一些实施例中，上述视频级模型可以通过以下方式训练获得，包括S901-S904。如图9所示，图9为本申请实施例提供的一种解码模型训练方法的可选的步骤流程图。

S901、获取视频样本集，视频样本集包括多个视频样本以及各个视频样本对应的动作类别标签。

S902、利用预设图像特征提取模型对视频样本集中各个视频样本的各帧图像样本进行特征提取，得到各帧图像样本的初始图像特征样本和特征映射关系样本。

S903、利用初始视频级模型，基于特征映射关系样本，对各帧图像样本的初始图像特征样本进行时间维度和动作维度的特征处理，确定各帧图像样本的目标图像特征样本；基于初始查询向量，对目标图像特征样本进行全局特征聚合，确定重建查询向量样本；以及，根据重建查询向量样本进行动作类别预测，得到视频样本集中各个视频样本的动作预测类别。

S904、根据各个视频样本对应的动作类别标签和各个视频样本的动作预测类别，对初始视频级模型和初始查询向量进行训练，得到视频级模型和预设查询向量。

在本申请实施例中，视频样本集可以是视频数据集Kinetics-400。在训练视频级模型的过程中，将预设图像提取模型的网络参数固定，训练输入的是视频样本和视频样本对应的动作类别标签，训练输出的是视频样本的动作预测类别。示例性的，将视频样本输入预设图像特征提取模型(在训练视频级模型的过程中，固定住图像特征提取模型的参数)，利用预设图像特征提取模型对视频样本的多帧图像样本进行图像特征提取，输出初始图像特征样本和特征映射关系样本。将初始图像特征样本输入初始视频级模型中，结合初始查询向量和特征映射关系样本，输出视频样本的动作预测类别。根据动作预测类别和预设损失函数，获得损失值；根据损失值对初始视频级模型进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等，得到视频级模型和预设查询向量。

需要说明的是，预设损失函数(loss function)可以由本领域技术人员根据实际情况进行适当设置的损失函数，可以是以下任意一项：交并比值(DiceLoss)、平滑SmoothL1损失函数、对数损失函数(logLoss，LR)、合页损失函数(hinge loss，SVM)、指数损失函数(exp-loss，AdaBoost)、交叉熵损失函数(cross-entropy loss，Softmax)、平方误差损失函数(quadratic loss)、绝对值损失函数(absolution loss)和0-1损失函数(0-1loss)等，对此本申请实施例不做限制。

本申请实施例提供的视频动作识别方法，在标准数据集上验证有效。在Kinetics-400视频数据集上，构建的视频理解深度模型在同等理论计算量或实际运行时间下，取得的测试精度都具有显著的提高。同时视频理解深度模型训练所需时间也数倍至数十倍少于相关技术中视频动作识别模型的构建方法。

相比于图像识别深度学习模型，视频动作识别模型需要处理一段时间内的多帧图像，因此，相关技术中依照图像特征的方法，训练视频动作识别模型，其计算量很大，且，仅仅用到图像特征提取模型的构建方法，因此未能充分发掘可迁移图像特征的潜力。本申请实施例提出一种高效的视频理解深度模型(也可以称为视频识别深度学习模型)的构建方法，通过最大化复用预先训练完成的高质量、可迁移图像特征，使得构建同规模、同质量的视频理解深度模型所需的计算资源降低数倍。该视频理解深度模型的训练流程主要包括两方面内容：(1)固定图像特征(即固定图像级模型的网络权重)，只训练视频级模型；(2)一种轻量级的视频级模型结构，实现从逐帧图像特征快速、有效地建立视频特征。在视频理解深度模型的训练过程中，除固定的图像特征提取模型之外，所有新引入的网络权重，将会随机初始化并且以在视频数据集上进行监督学习的方式进行更新。

相比于相关技术，本申请实施例提供的视频理解深度模型具有以下有益效果：(1)训练时间优势，基于相同的预训练特征，构建的视频理解深度模型所需时间，比相关技术中视频动作识别模型减少数倍。(2)低内存需求，由于预设图像提取特征固定，根据本申请实施例所提供的视频理解深度模型的训练过程所需的加速器内存显著少于相关技术中所采用的传统端到端训练方式，从而使得训练能够在少量或低内存的加速器硬件环境中成功运行。(3)精度优势，本申请实施例提供的视频动作识别方法，通过完整保留图像级模型所提取的初始图像特征，在中小数据量的目标任务上达到持平或更好的精度；能避免相关技术中对待识别视频进行视频提取的方式所带来的信息遗忘问题。(4)操作简单，本申请实施例提供的视频动作识别方法，只需使用基本的模型训练方法即可达到目标精度，而相关技术中的视频动作识别模型具有提取视频特征、预测视频动作等功能，需要复杂的训练技巧以及较为繁琐的超参数调整、训练时间较长，训练过程中消耗大量的计算资源。

为实现本申请实施例的视频动作识别方法，本申请实施例还提供一种视频动作识别装置，如图10所示，图10为本申请实施例提供的另一种视频动作识别装置的可选的结构示意图。视频动作识别装置100包括：特征提取模块1001，用于利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系；确定模块1002，用于基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；预测模块1003，用于根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在一些实施例中，确定模块1002，还用于在时间维度上，对各帧图像的初始图像特征进行深度可分卷积，得到各帧图像的第一图像特征；基于特征映射关系，对各帧图像的初始图像特征进行帧间注意力建模，确定各帧图像的第二图像特征；根据预设时间位置向量和各帧图像的初始图像特征，对各帧图像的时间位置进行编码，得到各帧图像的第三图像特征；根据各帧图像的初始图像特征、各帧图像的第一图像特征、各帧图像的第二图像特征和各帧图像的第三图像特征，确定各帧图像的目标图像特征。

在一些实施例中，特征映射关系包括各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系；

确定模块1002，还用于根据各帧图像对应的图像查询向量、各帧图像对应的第一键投影关系和各帧图像的初始图像特征，计算多帧图像中任意相邻帧的图像之间的帧间聚合权重，得到各帧图像的帧间注意力关系；对帧间注意力关系进行线性变换，使得帧间注意力关系的维度与各帧图像的初始图像特征的维度相同，得到各帧图像的第二图像特征。

在一些实施例中，确定模块1002，还用于根据上一帧图像对应的第一键投影关系，对当前帧图像的特征进行线性变换，得到当前帧图像对应的第一键向量，从而得到各帧图像对应的第一键向量；根据当前帧图像对应的图像查询向量和上一帧图像的第一键向量，计算第一帧间聚合权重；根据当前帧图像对应的图像查询向量和下一帧图像的第一键向量，计算第二帧间聚合权重；根据各帧图像的第一帧间聚合权重和各帧图像的第二帧间聚合权重，确定各帧图像的帧间注意力关系。

在一些实施例中，特征映射关系包括第二键投影关系和值投影关系；

确定模块1002，还用于分别根据第二键投影关系和值投影关系，对各帧图像的目标图像特征进行线性变换，得到各帧图像的第二键向量和各帧图像的值向量；根据预设查询向量和各帧图像的第二键向量，计算各帧图像的帧内聚合权重；根据各帧图像的帧内聚合权重，在各帧图像的值向量中进行全局特征聚合，得到全局聚合特征；对全局聚合特征进行深度信息提取，得到重建查询向量。

在一些实施例中，确定模块1002，还用于按照向量维度，对预设查询向量、各帧图像的第二键向量和各帧图像的值向量分别进行分组，得到多组子查询向量、各帧图像的多组子键向量和各帧图像的多组子值向量；子查询向量、子键向量和子值向量一一对应；根据各组子查询向量和各组子键向量，计算各组子键向量对应的帧内聚合权重；分别根据各组子键向量对应的帧内聚合权重，在子键向量对应的子值向量中，进行全局特征聚合，得到各组子查询向量对应的聚合特征，从而得到全局聚合特征，全局聚合特征包括各帧图像的多组子查询向量对应的聚合特征。

在一些实施例中，预设图像特征提取模型包括多层子网络；

特征提取模块1001，还用于利用多层子网络，对各帧图像进行特征提取，得到各帧图像的初始图像特征和特征映射关系；其中，各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征，每层子网络中各帧图像的初始子特征包括该帧图像对应的特征图网格上各个位置点的特征；特征映射关系包括各层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，以及各层子网络对应的第二键投影关系和各层子网络对应的值投影关系。

在一些实施例中，确定模块1002，还用于利用视频级模型，基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；以及，根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在一些实施例中，确定模块1002，还用于利用解码模型，基于特征映射关系，对各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定各帧图像的目标图像特征；以及，基于预设查询向量，对目标图像特征进行全局特征聚合，确定重建查询向量；利用预测模型，根据重建查询向量进行动作类别预测，得到待识别视频的动作类别。

在一些实施例中，预设图像特征提取模型包括多层子网络；解码模型包括多个级联堆叠的解码器块；多个级联堆叠的解码器块的数量与多层子网络的数量一致；各帧图像的初始图像特征包括各帧图像在各层子网络中的初始子特征；特征映射关系包括各层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，以及各层子网络对应的第二键投影关系和各层子网络对应的值投影关系；

确定模块1002，还用于利用第一解码器块，基于第一层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，对各帧图像在第一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定各帧图像的第一目标图像特征；第一目标图像特征为第一层子网络对应的目标图像特征；基于预设查询向量、第一层子网络对应的第二键投影关系和第一层子网络对应的值投影关系，对第一目标图像特征进行全局特征聚合，确定第一查询向量；继续利用下一个解码器块，基于下一层子网络中各帧图像对应的图像查询向量和各帧图像对应的第一键投影关系，对各帧图像在下一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定各帧图像的下一个目标图像特征；下一个目标图像特征为下一层子网络对应的目标图像特征；基于上一个解码器块输出的上一个查询向量、下一层子网络对应的第二键投影关系和下一层子网络对应的值投影关系，对下一个目标图像特征进行全局特征聚合，直至完成对最终的目标图像特征进行全局特征聚合时为止，得到重建查询向量，最终的目标图像特征为最后一层子网络对应的目标图像特征。

在一些实施例中，视频动作识别装置100还包括训练模块1004；

训练模块1004，用于获取视频样本集，视频样本集包括多个视频样本以及各个视频样本对应的动作类别标签；利用预设图像特征提取模型对视频样本集中各个视频样本的各帧图像样本进行特征提取，得到各帧图像样本的初始图像特征样本和特征映射关系样本；利用初始视频级模型，基于特征映射关系样本，对各帧图像样本的初始图像特征样本进行时间维度和动作维度的特征处理，确定各帧图像样本的目标图像特征样本；基于初始查询向量，对目标图像特征样本进行全局特征聚合，确定重建查询向量样本；以及，根据重建查询向量样本进行动作类别预测，得到视频样本集中各个视频样本的动作预测类别；根据各个视频样本对应的动作类别标签和各个视频样本的动作预测类别，对初始视频级模型和初始查询向量进行训练，得到视频级模型和预设查询向量。

需要说明的是，上述实施例提供的视频动作识别装置在进行视频动作识别时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的视频动作识别装置与视频动作识别方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

在本申请实施例中，图11为本申请实施例提出的视频动作识别设备组成结构示意图，如图11所示，本申请实施例提出的设备110包括处理器1101、存储可执行计算机程序的存储器1102，处理器1101，用于执行存储器1102中存储的可执行计算机程序时，实现本申请实施例提供的视频动作识别方法。在一些实施例中，视频动作识别设备110还可以包括通信接口1103，以及用于连接处理器1101、存储器1102和通信接口1103的总线1104。

在本申请实施例中，上述处理器1101可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

在本申请实施例中，总线1104用于连接通信接口1103、处理器1101以及存储器1102，实现这些器件之间的相互通信。

存储器1102用于存储可执行计算机程序和数据，该可执行计算机程序包括计算机操作指令，存储器1102可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。在实际应用中，上述存储器1102可以是易失性存储器(volatilememory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flashmemory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器1101提供可执行计算机程序和数据。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序，用于被处理器执行时实现如上任一实施例的视频动作识别方法。

示例性的，本实施例中的一种视频动作识别方法对应的程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种视频动作识别方法对应的程序指令被一电子设备读取或被执行时，可以实现如上述任一实施例的视频动作识别方法。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种视频动作识别方法，其特征在于，所述方法包括：

利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到所述各帧图像的初始图像特征和特征映射关系；

基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；

基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；

根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

2.根据权利要求1所述的方法，其特征在于，所述基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征，包括：

在时间维度上，对所述各帧图像的初始图像特征进行深度可分卷积，得到所述各帧图像的第一图像特征；

基于所述特征映射关系，对所述各帧图像的初始图像特征进行帧间注意力建模，确定所述各帧图像的第二图像特征；

根据预设时间位置向量和所述各帧图像的初始图像特征，对所述各帧图像的时间位置进行编码，得到所述各帧图像的第三图像特征；

根据所述各帧图像的初始图像特征、所述各帧图像的第一图像特征、所述各帧图像的第二图像特征和所述各帧图像的第三图像特征，确定所述各帧图像的目标图像特征。

3.根据权利要求2所述的方法，其特征在于，所述特征映射关系包括所述各帧图像对应的图像查询向量和所述各帧图像对应的第一键投影关系；

所述基于所述特征映射关系，对所述各帧图像的初始图像特征进行帧间注意力建模，确定所述各帧图像的第二图像特征，包括：

根据所述各帧图像对应的图像查询向量、所述各帧图像对应的第一键投影关系和所述各帧图像的初始图像特征，计算多帧图像中任意相邻帧的图像之间的帧间聚合权重，得到所述各帧图像的帧间注意力关系；

对所述帧间注意力关系进行线性变换，使得所述帧间注意力关系的维度与所述各帧图像的初始图像特征的维度相同，得到所述各帧图像的第二图像特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述各帧图像对应的图像查询向量、所述各帧图像对应的第一键投影关系和所述各帧图像的初始图像特征，计算多帧图像中任意相邻帧的图像之间的帧间聚合权重，得到所述各帧图像的帧间注意力关系，包括：

根据上一帧图像对应的第一键投影关系，对当前帧图像的特征进行线性变换，得到所述当前帧图像对应的第一键向量，从而得到所述各帧图像对应的第一键向量；

根据所述当前帧图像对应的图像查询向量和所述上一帧图像的第一键向量，计算第一帧间聚合权重；

根据所述当前帧图像对应的图像查询向量和下一帧图像的第一键向量，计算第二帧间聚合权重；

根据所述各帧图像的第一帧间聚合权重和所述各帧图像的第二帧间聚合权重，确定所述各帧图像的帧间注意力关系。

5.根据权利要求1所述的方法，其特征在于，所述特征映射关系包括第二键投影关系和值投影关系；

所述基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量，包括：

分别根据所述第二键投影关系和所述值投影关系，对所述各帧图像的目标图像特征进行线性变换，得到所述各帧图像的第二键向量和所述各帧图像的值向量；

根据所述预设查询向量和所述各帧图像的第二键向量，计算所述各帧图像的帧内聚合权重；

根据所述各帧图像的帧内聚合权重，在所述各帧图像的值向量中进行全局特征聚合，得到全局聚合特征；

对所述全局聚合特征进行深度信息提取，得到所述重建查询向量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述预设查询向量和所述各帧图像的第二键向量，计算所述各帧图像的帧内聚合权重；根据所述各帧图像的帧内聚合权重，在所述各帧图像的值向量中进行全局特征聚合，得到全局聚合特征，包括：

按照向量维度，对所述预设查询向量、所述各帧图像的第二键向量和所述各帧图像的值向量分别进行分组，得到多组子查询向量、所述各帧图像的多组子键向量和所述各帧图像的多组子值向量；子查询向量、子键向量和子值向量一一对应；

根据各组子查询向量和各组子键向量，计算所述各组子键向量对应的帧内聚合权重；

分别根据所述各组子键向量对应的帧内聚合权重，在子键向量对应的子值向量中，进行全局特征聚合，得到所述各组子查询向量对应的聚合特征，从而得到所述全局聚合特征，所述全局聚合特征包括所述各帧图像的多组子查询向量对应的聚合特征。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述预设图像特征提取模型包括多层子网络；

所述利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到所述各帧图像的初始图像特征和特征映射关系，包括：

利用所述多层子网络，对所述各帧图像进行特征提取，得到所述各帧图像的初始图像特征和所述特征映射关系；

其中，所述各帧图像的初始图像特征包括所述各帧图像在各层子网络中的初始子特征，每层子网络中各帧图像的初始子特征包括该帧图像对应的特征图网格上各个位置点的特征；所述特征映射关系包括各层子网络中所述各帧图像对应的图像查询向量和所述各帧图像对应的第一键投影关系，以及所述各层子网络对应的第二键投影关系和所述各层子网络对应的值投影关系。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别，包括：

利用视频级模型，基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；以及，根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

9.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别，包括：

利用解码模型，基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；以及，基于所述预设查询向量，对所述目标图像特征进行全局特征聚合，确定所述重建查询向量；

利用预测模型，根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

10.根据权利要求9所述的方法，其特征在于，所述预设图像特征提取模型包括多层子网络；所述解码模型包括多个级联堆叠的解码器块；所述多个级联堆叠的解码器块的数量与所述多层子网络的数量一致；所述各帧图像的初始图像特征包括所述各帧图像在各层子网络中的初始子特征；所述特征映射关系包括各层子网络中所述各帧图像对应的图像查询向量和所述各帧图像对应的第一键投影关系，以及所述各层子网络对应的第二键投影关系和所述各层子网络对应的值投影关系；

所述利用解码模型，基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；以及，基于所述预设查询向量，对所述目标图像特征进行全局特征聚合，确定所述重建查询向量，包括：

利用第一解码器块，基于第一层子网络中所述各帧图像对应的图像查询向量和所述各帧图像对应的第一键投影关系，对所述各帧图像在所述第一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定所述各帧图像的第一目标图像特征；所述第一目标图像特征为所述第一层子网络对应的所述目标图像特征；

基于所述预设查询向量、所述第一层子网络对应的第二键投影关系和所述第一层子网络对应的值投影关系，对所述第一目标图像特征进行全局特征聚合，确定第一查询向量；

继续利用下一个解码器块，基于下一层子网络中所述各帧图像对应的图像查询向量和所述各帧图像对应的第一键投影关系，对所述各帧图像在所述下一层子网络中的初始子特征，进行时间维度和动作维度的特征处理，确定所述各帧图像的下一个目标图像特征；所述下一个目标图像特征为所述下一层子网络对应的所述目标图像特征；

基于上一个解码器块输出的上一个查询向量、所述下一层子网络对应的第二键投影关系和所述下一层子网络对应的值投影关系，对所述下一个目标图像特征进行全局特征聚合，直至完成对最终的目标图像特征进行全局特征聚合时为止，得到所述重建查询向量，最终的目标图像特征为最后一层子网络对应的所述目标图像特征。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取视频样本集，所述视频样本集包括多个视频样本以及各个视频样本对应的动作类别标签；

利用所述预设图像特征提取模型对所述视频样本集中各个视频样本的各帧图像样本进行特征提取，得到所述各帧图像样本的初始图像特征样本和特征映射关系样本；

利用初始视频级模型，基于所述特征映射关系样本，对所述各帧图像样本的初始图像特征样本进行时间维度和动作维度的特征处理，确定所述各帧图像样本的目标图像特征样本；

基于初始查询向量，对所述目标图像特征样本进行全局特征聚合，确定重建查询向量样本；

以及，根据所述重建查询向量样本进行动作类别预测，得到所述视频样本集中各个视频样本的动作预测类别；

根据所述各个视频样本对应的动作类别标签和所述各个视频样本的动作预测类别，对所述初始视频级模型和所述初始查询向量进行训练，得到所述视频级模型和所述预设查询向量。

12.一种视频动作识别装置，其特征在于，所述装置包括：

特征提取模块，用于利用预设图像特征提取模型，对获取的待识别视频的各帧图像进行特征提取，得到所述各帧图像的初始图像特征和特征映射关系；

确定模块，用于基于所述特征映射关系，对所述各帧图像的初始图像特征进行时间维度和动作维度的特征处理，确定所述各帧图像的目标图像特征；基于预设查询向量，对所述目标图像特征进行全局特征聚合，确定重建查询向量；

预测模块，用于根据所述重建查询向量进行动作类别预测，得到所述待识别视频的动作类别。

13.一种视频动作识别设备，其特征在于，所述设备包括：

存储器，用于存储可执行计算机程序；

处理器，用于执行所述存储器中存储的可执行计算机程序时，实现如权利要求1-12任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，存储有计算机程序，用于被处理器执行时，实现如权利要求1-12任一项所述的方法。