CN113569607A

CN113569607A - 动作识别方法、装置、设备以及存储介质

Info

Publication number: CN113569607A
Application number: CN202110134629.5A
Authority: CN
Inventors: 姜博源; 罗栋豪; 吴明禹; 王亚彪; 汪铖杰; 黄小明; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-10-29
Also published as: WO2022161302A1; US20230067934A1

Abstract

本申请公开了一种动作识别方法、装置、设备以及存储介质，属于图像识别领域。方法包括：按照多个维度对目标视频中的多个视频帧进行特征提取，得到多个多通道特征图。基于多个多通道特征图中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，并基于多个多通道特征图和多个第一注意力权重，确定目标对象在目标视频中执行的动作的类型。通过上述步骤，在对目标视频进行动作识别的过程中，结合了目标视频中多个视频帧之间的相似度来得到第一注意力权重，而第一注意力权重能够表示多通道特征图与动作的相关程度，基于注意力权重和视频帧的多通道特征图进行动作识别，能够提高动作识别的准确性。

Description

动作识别方法、装置、设备以及存储介质

技术领域

本申请涉及图像识别领域，特别涉及一种动作识别方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的场景需要进行动作识别，比如在监控视频中识别人物执行的动作，或者在电影视频中识别演员执行的动作等。

相关技术中，往往会将视频拆分为多个视频帧，将多个视频帧分别输入图像识别模型，由图像识别模型基于每个视频帧来单独进行动作识别，最终将多个视频帧的动作识别结果进行融合，作为对视频的动作识别结果。

但是，由于视频中的动作往往具有连续性，基于单独的视频帧来预测视频中的动作时，割裂了动作的连续性，导致动作识别的准确性不高。

发明内容

本申请实施例提供了一种动作识别方法、装置、设备以及存储介质，可以提升动作识别效果。所述技术方案如下：

一方面，提供了一种动作识别方法，所述方法包括：

获取目标视频中的多个视频帧；

按照多个维度对所述多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度；

基于所述多个多通道特征图中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，所述第一注意力权重用于表示对应多通道特征图与所述目标视频中的对象在所述目标视频中执行的动作的相关程度；

基于所述多个多通道特征图和确定的多个第一注意力权重，确定所述动作的类型。

一方面，提供了一种动作识别方法，所述方法包括：

获取目标视频中的多个视频帧；

基于每两个相邻视频帧的多通道特征图上多个特征点之间的相似度，确定每个特征点的第三注意力权重，所述第三注意力权重用于表示对应特征点与所述目标视频中的对象在所述目标视频中执行的动作的相关程度；

基于所述多个多通道特征图和确定的多个第三注意力权重，确定所述动作的类型。

在一种可能的实施方式中，所述基于所述多个第三注意力特征图进行识别，得到所述动作的类型包括：

基于每两个第三注意力特征图之间的相似度，确定每个第三注意力特征图的第四注意力权重，所述第四注意力权重用于表示对应第三注意力特征图与所述动作的相关程度；

基于所述多个第三注意力特征图和确定的多个第四注意力权重，确定所述动作的类型。

一方面，提供了一种动作识别装置，所述装置包括：

第一获取单元，用于获取目标视频中的多个视频帧；

第一特征提取单元，用于按照多个维度对所述多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度；

第一注意力权重确定单元，用于基于所述多个多通道特征图中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，所述第一注意力权重用于表示对应多通道特征图与所述目标视频中的对象在所述目标视频中执行的动作的相关程度；

第一类型确定单元，用于基于所述多个多通道特征图和确定的多个第一注意力权重，确定所述动作的类型。

在一种可能的实施方式中，所述第一特征提取单元用于，对于任一视频帧，采用多个卷积核对所述任一视频帧进行特征提取，得到所述多个卷积核分别对应的多个单通道特征图，每个卷积核用于提取一个维度的特征图；将所述多个单通道特征图进行拼接，得到所述任一视频帧的多通道特征图。

在一种可能的实施方式中，所述第一注意力权重确定单元，用于对所述多个多通道特征图进行降维处理，得到多个第一特征向量，每个多通道特征图对应于一个第一特征向量；

基于所述多个第一特征向量中每两个第一特征向量之间的相似度，确定每个第一特征向量的第一注意力权重。

在一种可能的实施方式中，所述第一注意力权重确定单元，用于对于任一多通道特征图，分别对所述任一多通道特征图中的多个单通道特征图进行降维处理，得到所述多个单通道特征图分别对应的多个特征值；将所述多个特征值进行组合，得到所述任一多通道特征图的第一特征向量。

在一种可能的实施方式中，所述第一注意力权重确定单元，用于对于任一第一特征向量，分别获取所述任一第一特征向量与所述多个第一特征向量之间的多个相似度；基于所述多个第一特征向量与对应相似度的乘积之和，确定所述任一第一特征向量的第一注意力权重。

在一种可能的实施方式中，所述第一注意力权重确定单元，用于对所述多个第一特征向量与对应相似度的乘积之和进行归一化处理，得到所述任一第一特征向量的第一注意力权重。

在一种可能的实施方式中，所述第一类型确定单元，用于将所述多个第一注意力权重与所述多个多通道特征图相乘，得到多个第一注意力特征图，每个视频帧对应于一个第一注意力特征图；基于所述多个第一注意力特征图进行识别，得到所述动作的类型。

在一种可能的实施方式中，所述第一类型确定单元，用于对于任一第一注意力特征图，获取所述任一第一注意力特征图上多个特征点对应的多个第二特征向量，以及所述任一第一注意力特征图的参照注意力特征图上多个特征点对应的多个第三特征向量，所述参照注意力特征图对应的视频帧为与所述任一第一注意力特征图对应的视频帧相邻的视频帧；基于所述多个第二特征向量和所述多个第三特征向量之间的相似度，确定所述任一第一注意力特征图上多个特征点分别对应的多个第二注意力权重，所述第二注意力权重用于表示对应特征点与所述动作的相关程度；将所述多个第二注意力权重与所述任一第一注意力特征图上多个特征点相乘，得到所述任一第一注意力特征图的第二注意力特征图；基于多个所述第二注意力特征图进行识别，得到所述动作的类型。

一方面，提供了一种动作识别装置，所述装置包括：

第二获取单元，用于获取目标视频中的多个视频帧；

第二特征提取单元，用于按照多个维度对所述多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度；

第三注意力权重确定单元，用于基于每两个相邻视频帧的多通道特征图上多个特征点之间的相似度，确定每个特征点的第三注意力权重，所述第三注意力权重用于表示对应特征点与所述目标视频中的对象在所述目标视频中执行的动作的相关程度；

第二类型确定单元，用于基于所述多个多通道特征图和确定的多个第三注意力权重，确定所述动作的类型。

在一种可能的实施方式中，所述第三注意力权重确定单元，用于对于任一视频帧的多通道特征图，获取所述任一视频帧的多通道特征图上多个特征点对应的多个第四特征向量，以及与所述任一视频帧相邻的参考视频帧的多通道特征图上多个特征点对应的多个第五特征向量；基于所述多个第四特征向量和所述多个第五特征向量，确定所述任一视频帧的多个第三注意力权重。

在一种可能的实施方式中，所述第二类型确定单元，用于将所述多个第三注意力权重与所述多个多通道特征图相乘，得到多个第三注意力特征图，每个视频帧对应于一个第三注意力特征图；基于所述多个第三注意力特征图进行识别，得到所述动作的类型。

在一种可能的实施方式中，所述第二类型确定单元，用于基于每两个第三注意力特征图之间的相似度，确定每个第三注意力特征图的第四注意力权重，所述第四注意力权重用于表示对应第三注意力特征图与所述动作的相关程度；基于所述多个第三注意力特征图和确定的多个第四注意力权重，确定所述动作的类型。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述动作识别方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述动作识别方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述动作识别方法。

通过本申请实施例提供的技术方案，在对目标视频进行动作识别的过程中，结合了目标视频中多个视频帧之间的相似度，由于动作变化会导致视频帧相似度变化，因此相似度也就能够反映动作的连续性。基于相似度得到的注意力权重也就能够表示特征图与动作的相关程度，基于注意力权重和多通道特征图进行动作识别，能够提高动作识别的准确性。

附图说明

为例更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作识别方法的实施环境的示意图；

图2是本申请实施例提供的一种动作识别方法的流程图；

图3是本申请实施例提供的一种动作识别方法的流程图；

图4是本申请实施例提供的一种多通道特征图的示意图；

图5是本申请实施例提供的一种动作识别模型的结构示意图；

图6是本申请实施例提供的一种通道运动增强模块的原理示意图；

图7是本申请实施例提供的一种空间运动增强模块的原理示意图；

图8是本申请实施例提供的一种模块交替的示意图；

图9是本申请实施例提供的一种特征图可视化的示意图；

图10是本申请实施例提供的一种动作识别方法的流程图；

图11是本申请实施例提供的一种动作识别方法的流程图；

图12是本申请实施例提供的一种动作识别装置的结构示意图；

图13是本申请实施例提供的一种动作识别装置的结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个参照人脸图像是指两个或两个以上的参照人脸图像。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

归一化处理：将取值范围不同的数列映射到(0，1)区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

注意力机制(Attention Mechanism)：在神经网络的隐藏层中，注意力机制根据具体任务目标，对关注的方向和加权模型进行调整。通过增加注意力机制的加权，使不符合注意力模型的内容弱化或者遗忘。若关注的方向基于自身，则称之为自身注意力(Self-Attention)机制。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈神经网络，其神经元可对感受野内的单元进行响应。CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。

图1是本申请实施例提供的一种动作识别方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110安装和运行有支持动作识别的应用程序。

可选地，服务器是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，终端110泛指多个终端中的一个，本申请实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

介绍完本申请实施例提供的技术方案的实施环境之后，下面对本申请的应用场景进行介绍。

本申请实施例提供的技术方案能够应用在视频中对象的动作分析、视频分类以及安防视频异常分析等场景下，本申请实施例对此不做限定，下面将以上述三种应用场景为例进行说明。

1、在视频中对象的动作分析的场景下，计算机设备能够对视频执行本申请实施例提供的技术方案，从而识别视频中的对象在视频中执行的动作的类型。比如，视频为舞蹈演员跳舞的视频，那么计算机设备通过对该视频执行本申请实施例提供的技术方案，能够识别出舞蹈演员跳舞的类型。在一些实施例中，若该视频为直播视频，那么计算机设备能够对该直播视频执行本申请实施例提供的技术方案，从而得到该主播在该直播视频中执行动作的类型。计算机设备能够基于动作的类型，为该直播视频添加标签，以供该直播视频的观众能够提前获知该直播视频的内容。

2、在视频分类的场景下，计算机设备能够对多个视频执行本申请实施例提供的技术方案，从而识别出多个视频中的对象在视频中执行的动作的类型，基于对象在视频中执行的动作的类型，对多个视频进行分类，也即是将对象执行动作为同一类型的视频分为一类。比如，计算机设备能够基于多个视频中的对象在视频中执行的动作的类型为多个视频分别添加视频标签，基于视频标签对多个视频进行分类，从而将多个视频分为多个类型，便于后续的查询和存储。

3、在安防视频异常分析的场景下，计算机设备能够对安防视频执行本申请实施例提供的技术方案，识别出安防视频中的对象在安防视频中执行的动作的型。在识别出动作的类型的基础上，计算机设备能够标记执行动作的类型为目标动作类型的对象，便于安防人员及时锁定该对象，其中，目标动作类型翻越墙壁、破坏大门、挥动刀具以及进入车辆等动作，本申请实施例对此不做限定。

需要说明的是，在上述说明过程中，是以上述三种应用场景为例进行说明的，在其他可能的情况下，本申请实施例提供的技术方案也能够应用在其他类型视频的动作识别过程中，本申请实施例对此不做限定。

在下述对本申请实施例提供的技术方案进行说明的过程中，是以计算机设备为终端为例进行的。在其他可能的实施方式中，也可以由服务器作为执行主体来执行，或者通过终端和服务器之间的配合来执行，本申请实施例对于执行主体的类型不做限定。

图2是本申请实施例提供的一种动作识别方法的流程图，参见图2，方法包括：

201、终端获取目标视频中的多个视频帧。

其中，目标视频为上述应用场景中的任一视频，本申请实施例对此不做限定。

202、终端按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

其中，维度也即是视频帧的不同方面，比如，一个维度为视频帧的背景，那么在该维度下提取的特征也就能够表示视频帧的背景；另一个维度为视频帧的色彩，那么在该维度下提取的特征也就能够表示视频帧的色彩。终端对视频帧进行多维度特征提取，也即是从多个方面对视频帧的进行特征提取，得到的多通道特征图也就能够从多个方面综合表达视频帧的特征。

203、终端基于多个视频帧中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，第一注意力权重用于表示对应多通道特征图与目标视频中的对象在目标视频中执行的动作的相关程度。

若目标视频中存在运动的对象，那么在目标视频的不同视频帧中，该对象的位置可能存在差异。体现在视频帧的多通道特征图上，若两个多通道特征图的相似度较高，那么该对象在该两个多通道特征图对应的视频帧中可能未进行运动或者运动的幅度较小；若两个多通道特征图的相似度较低，那么该对象在该两个多通道特征图对应的视频帧中可能进行了运动。终端能够采用第一注意力权重来表示多通道特征图与运动的相关程度，从而在后续的动作识别过程中，能够集中在于动作相关程度较高的多通道特征图进行识别。

204、终端基于多个多通道特征图和确定的多个第一注意力权重，确定动作的类型。

终端能够基于第一注意力权重来强化与运动相关的多通道特征图，从而提高动作识别的准确性。

通过本申请实施例提供的技术方案，在对目标视频进行动作识别的过程中，结合了目标视频中多个视频帧之间的相似度，由于动作变化会导致视频帧相似度变化，因此相似度也就能够反映动作的连续性。基于相似度得到的注意力权重也就能够表示特征图与动作的相关程度，基于注意力权重和视频帧的多通道特征图进行动作识别，能够提高动作识别的准确性。

上述步骤201-204是对本申请实施例的简单说明，下面将结合一些例子对本申请实施例提供的技术方案进行详细说明。图3是本申请实施例提供的一种动作识别方法的流程图，参见图3，方法包括：

301、终端获取目标视频中的多个视频帧。

在一种可能的实施方式中，终端能够获取目标视频中的全部视频帧。在这种实施方式下，终端能够基于目标视频的全部视频帧进行动作识别，由于全部视频帧中携带了目标视频的全部信息，那么后续基于全部视频帧进行动作识别的结果也就更加准确。

在一种可能的实施方式中，终端能够对目标视频进行间隔采样，得到多个视频帧，也即从目标视频中，间隔N个视频帧进行采样，得到多个视频帧，N为大于等于1的正整数。

在这种实施方式下，终端无需获取目标视频中的全部视频帧，以间隔采样的方式从目标视频中获取视频帧，这样能够减少视频帧的数量，从而提高动作识别的效率。

举例来说，若目标视频中存在100个视频帧，那么终端能够每隔2个视频帧进行采样，也即是终端从目标视频中获取第一个视频帧、第四个视频帧、第七个视频帧……以次类推，得到多个视频帧。

302、终端按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

在一种可能的实施方式中，对于任一视频帧，终端采用多个卷积核对该视频帧进行特征提取，得到多个卷积核对应的多个单通道特征图，每个卷积核用于提取一个维度的特征图。终端将多个单通道特征图进行拼接，得到该视频帧的多通道特征图。

在这种实施方式下，终端能够采用不同的卷积核来提取视频帧不同维度的特征，多个卷积核能够并行运算，从而提高特征提取的效率。

举例来说，若存在一个视频帧

矩阵中的数字为该视频帧的灰度值，终端能够采用卷积核

以及

对该视频帧

进行卷积处理，得到该视频帧

的三个单通道特征图

以及

在特征提取的过程中，以一个卷积核

为例，终端能够控制该卷积核

在该视频帧

上进行滑动。在滑动过程中，终端获取该卷积核

中的数值与该视频帧

上对应数值的乘积和，将该乘积和作为单通道特征图中的一个数值。以该卷积核

覆盖该视频帧上的

为例，终端能够获取该卷积核

中的数值与

在对应位置上的乘积和，也即是1×2+2×1+1×1+1×3＝8，8也就是单通道特征图中的一个数值。终端控制该卷积核

在该视频帧

上进行滑动，获取多个数值。终端将获取的多个数值进行组合，得到该视频帧

的一个单通道特征图

终端能够将三个单通道特征图

以及

进行叠加，得到该视频帧的多通道特征图

在上述举例中，在采用卷积核对视频帧进行卷积处理，提取视频帧的单通道特征图的过程中，卷积核覆盖该视频帧边缘的次数较少，从而导致单通道特征图的尺寸小于该视频帧的尺寸，尺寸的减小可能会导致该视频帧边缘信息的丢失。为了保证信息的完整，终端还能够采用下述方式提取多个视频帧的多通道特征图。

在一种可能的实施方式中，对于任一视频帧，终端对该视频帧的边缘进行填充，采用多个卷积核对填充后的视频帧进行特征提取，得到多个卷积核分别对应的多个单通道特征图。终端将多个单通道特征图进行拼接，得到该视频帧的多通道特征图。

在这种实施方式下，在终端采用卷积核提取该视频帧的多通道特征图之前，能够对该视频帧进行边缘填充，从而保证该视频帧的边缘信息被卷积核完整的采集，提高多通道特征图携带信息的完整性。

还是以视频帧为

卷积核的数量为三个为例，若终端直接采用一个3×3的卷积核来对该视频帧进行处理，那么处理过后只能得到一个数值，该数值可能会丢失视频帧

中的部分边缘信息。在这种情况下，终端能够用0来对该视频帧的边缘进行填充，得到

终端采用三个卷积核

以及

对填充后的视频帧进行卷积处理，得到三个单通道特征图

以及

在特征提取的过程中，以一个卷积核

为例，终端能够控制该卷积核

在该填充后的视频帧

上进行滑动。在滑动过程中，终端获取该卷积核

中的数值与该填充后的视频帧

覆盖该视频帧上的

为例，终端能够获取该卷积核

中的数值与

在对应位置上的乘积和，也即是0×1+0×1+0×1+0×1+2×0+1×1+0×0+1×0+1×3＝4，4也就是单通道特征图中的一个数值。终端控制该卷积核

在该填充后的视频帧

上进行滑动，获取多个数值。终端将获取的多个数值进行组合，得到一个单通道特征图

终端将三个单维特征度进行叠加，得到该视频帧的多通道特征图

在这种实施方式下，终端通过对视频帧进行填充，能够使得卷积核在滑动过程中多次采集视频帧的边缘信息，使得单通道特征图能够最大程度的保留视频帧的信息，同时，最终得到的单通道特征图的尺寸与视频帧的原始尺寸相同，便于后续提取更深层次的特征。

另外，上述举例是以目标视频为灰度视频，目标视频中的视频帧为灰度视频帧为例进行说明的，在其他可能的实施方式中，若目标视频为彩色视频，目标视频中的视频帧为彩色视频帧，终端能够通过下述方式来提取多个视频帧的多通道特征图。

在一种可能的实施方式中，对于任一视频帧，终端采用多个卷积核组对该视频帧进行特征提取，得到多个卷积核组分别对应的多个单通道特征图，其中，每个卷积核组包括目标数量的卷积核，目标数量与视频帧的颜色通道数量相同，一个卷积核组中的卷积核用于提取一个维度的特征。终端将多个单通道特征图进行拼接，得到该视频帧的多通道特征图。

在这种实施方式下，终端能够采用不同的卷积核组对视频帧的不同颜色通道进行特征提取，从而实现对彩色视频帧的特征提取。

举例来说，若一个视频帧包括三个颜色通道RGB，那么终端能够采用三个颜色矩阵

以及

来表示该视频帧。终端能够采用多个卷积核组对该视频帧进行卷积处理，得到该视频帧的多个单通道特征图。以一个卷积核组为例，由于该视频帧包括三个颜色通道，那么一个卷积核组中也就包括三个卷积核

以及

三个卷积核分别用于提取三个颜色通道的特征图。终端采用三个卷积核

以及

对该视频帧的三个颜色矩阵

以及

分别进行卷积处理，得到三个颜色特征图

以及

终端将三个颜色特征图

以及

进行融合，得到该视频帧的一个单通道特征图，其中，终端将三个颜色特征图

以及

进行融合的过程，也即是将三个颜色特征图

以及

相加的过程，得到该视频帧的一个单通道特征图

终端能够将通过多个卷积核组得到的单通道特征图进行叠加，得到该视频帧的多通道特征图，叠加方式与之前的举例属于同一发明构思，在此不再赘述。

可选地，在上述实施方式的基础上，终端还能够执行下述步骤：

在一种可能的实施方式中，对于任一视频帧，终端对该视频帧的颜色矩阵的边缘进行填充，采用多个卷积核组对填充后的视频帧进行特征提取，得到多个卷积核组分别对应的多个单通道特征图。终端将多个单通道特征图进行拼接，得到该视频帧的多通道特征图。

在这种实施方式下，在终端采用卷积核组提取视频帧的多通道特征图之前，能够对该视频帧的颜色矩阵进行边缘填充，从而保证该视频帧的边缘信息被卷积核组完整的采集，提高多通道特征图携带信息的完整性。

以及

来表示该视频帧。终端能够对三个颜色矩阵

以及

进行边缘填充，得到填充后的三个颜色矩阵

以及

终端采用多个卷积核组对填充后的三个颜色矩阵进行卷积处理，得到该视频帧的多个单通道特征图。以一个卷积核组为例，由于该视频帧包括三个颜色通道，那么一个卷积核组中也就包括三个卷积核

以及

以及

对该视频帧的三个填充后的颜色矩阵

以及

分别进行卷积处理，得到三个颜色特征图

以及

终端将三个颜色特征图

以及

以及

进行融合的过程，也即是将三个颜色特征图

以及

相加的过程，得到该视频帧的一个单通道特征图

303、终端基于多个多通道特征图中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，第一注意力权重用于表示对应多通道特征图与目标视频中的对象在目标视频中执行的动作的相关程度。

可选地，第一注意力权重与两个多通道特征图之间的相似度成反比，也即是，对于任一个多通道特征图来说，若存在另一个多通道特征图与该多通道特征图之间的相似度较高，也就表示这两个多通道特征图分别对应的两个视频帧在时序上变化不大，包含的与动作相关的信息有限，相应的，在进行动作识别时，这两个多通道特征图之间的注意力权重也就较小；若存在另一个多通道特征图与该多通道特征图之间的相似度较低，也就表示这两个多通道特征图分别对应的视频帧在时序上变化较大，包含的与动作相关的信息较多，相应的，在进行动作识别时，这两个多通道特征图之间的注意力权重也就较大。

在一种可能的实施方式中，终端对多个多通道特征图进行降维处理，得到多个第一特征向量，每个多通道特征图对应于一个第一特征向量。终端基于多个第一特征向量中每两个第一特征向量之间的相似度，确定每个第一特征向量的第一注意力权重。

为了更加清楚的对上述实施方式进行说明，下面将分为两个部分对上述实施方式进行说明，其中，第一部分对终端获取第一特征向量的方法进行说明，第二方部位对终端确定第一注意力权重的方法进行说明。

部分1、在一种可能的实施方式中，对于任一多通道特征图，终端分别对该多通道特征图中的多个单通道特征图进行降维处理，得到多个单通道特征图分别对应的多个特征值。终端将多个特征值进行组合，得到该多通道特征图的第一特征向量。

在这种实施方式下，终端能够将单通道特征图降维成特征值，将多个单通道特征图的特征值拼接为多通道特征图的特征向量，相较于多通道特征图，特征向量包含的数据量更小，提高了后续获取注意力权重的效率，从而提高了动作识别的效率。

比如，终端能够通过下述公式(1)来获取多通道特征图的第一特征向量。

z_t＝Conv(x_t,W₁),1≤t≤T (1)

其中，t表示第一特征向量的序号，z_t表示序号为t的第一特征向量，x_t表示编号为t的多通道特征图，t为正整数，Conv()表示卷积函数，W₁表示1×1的卷积核的参数矩阵，T表示多通道特征图的数量。在一些实施例中，x_t表示上述多通道特征图，z_t表示上述多通道特征图的第一特征向量。

举例来说，以一个多通道特征图包括三个单通道特征图为例，若该多通道特征图为

括号中的三个矩阵也即是该多通道特征图包括的三个单通道特征图。终端能够对三个单通道特征图进行平均池化，将三个单通道特征图

转化为三个特征值，也即是终端分别获取三个单通道特征图

中数值的平均值7.9、5.2以及8.5，将三个平均值7.9、5.2以及8.5获取为三个特征值。终端将三个特征值7.9、5.2以及8.5进行组合，得到该多通道特征图的第一特征向量(7.9，5.2，8.5)。在这种方式下，终端能够采用单通道特征图中数值的平均值来表示单通道特征图，从而降低运算量，提高处理效率。

需要说明的是，在上述举例中，是以终端通过均值池化来对单通道特征图进行降维为例进行说明的，在其他可能的实施方式中，终端也能够通过最大值池化或者最小值池化来对单通道特征图进行降维处理，得到单通道特征图对应的特征值。下面将对终端采用最大值池化来对单通道特征图进行降维处理的方法进行说明。

括号中的三个矩阵也即是该多通道特征图包括的三个单通道特征图。终端能够对三个单通道特征图进行最大值池化，将三个单通道特征图

转化为三个特征值，也即是终端分别获取三个单通道特征图

中数值的平最大值11、10以及14，将三个最大值11、10以及14获取为三个特征值。终端将三个特征值11、10以及14进行组合，得到该多通道特征图的第一特征向量(11，10，14)。在这种方式下，终端能够采用单通道特征图中数值的最大值来表示单通道特征图，从而降低运算量，提高处理效率。

部分2、对于任一第一特征向量，终端分别获取该第一特征向量与多个第一特征向量之间的多个相似度。终端基于多个第一特征向量与对应相似度的乘积之和，确定该第一特征向量的第一注意力权重。

在这种实施方式下，终端能够采用第一特征向量来表示对应的多通道特征图，通过第一特征向量之间的相似度来表示多通道特征图之间的相似度，减少了参数的数量，提高了运算效率。

比如，终端能够通过下述公式(2)来分别获取第一特征向量与多个第一特征向量之间的相似度，通过下述公式(3)来获取多个第一特征向量与对应相似度的乘积之和，通过下述公式(4)来获取该第一特征向量的第一注意力权重。

d_tj＝-z_t·z_j,1≤t≤T,1≤j≤T (2)

其中，d_tj表示第一特征向量z_t和第一特征向量z_j之间的相似度，z_t和z_j分别表示序号为t第一特征向量和序号为j的第一特征向量，T表示通道特征图的数量，也即是通道特征图对应的第一特征向量的数量，t和j均表示第一特征向量的序号，t和j均为正整数。在一些实施例中，

表示多个相似度之和为1。

其中，t表示乘积和的序号，

表示序号为t的乘积和，乘积和

与多通道特征图x_t相对应。

其中，t表示第一注意力权重的序号，a_t表示序号为t的第一注意力权重，σ()表示归一化函数，W₂表示参数矩阵，第一注意力权重a_t与多通道特征图x_t相对应。在一些实施例中，a_t表示该第一特征向量的第一注意力权重。

以任一第一特征向量为例进行说明，终端分别获取该第一特征向量与多个第一特征向量之间的多个相似度。终端对多个第一特征向量与对应相似度的乘积之和进行归一化处理，得到该第一特征向量的第一注意力权重。比如，若目标视频中存在三个视频帧，三个视频帧按照播放时间的顺序标记为视频帧A、视频帧B以及视频帧C。那么经过部分1的处理，终端能够分别获取三个视频帧对应的三个第一特征向量，在一些实施例中，视频帧A的第一特征向量为(1，2，3)，视频帧B的第一特征向量为(1，4，3)，视频帧C的第一特征向量为(2，1，2)。对于视频帧A来说，终端能够获取视频帧A的第一特征向量(1，2，3)与视频帧B的第一特征向量(1，4，3)之间的余弦相似度0.94，视频帧A的第一特征向量(1，2，3)与视频帧C的第一特征向量(2，1，2)之间的余弦相似度0.89。终端获取视频帧A的第一特征向量(1，2，3)与视频帧B的第一特征向量(1，4，3)之间的余弦相似度0.94，与视频帧B的第一特征向量(1，4，3)的乘积(0.94，3.76，2.82)。终端获取视频帧A的第一特征向量(1，2，3)与视频帧C的第一特征向量(2，1，2)之间的余弦相似度0.89，与视频帧C的第一特征向量(2，1，2)的乘积(1.78，0.89，1.78)。终端视频帧A的第一特征向量(1，2，3)与乘积(0.94，3.76，2.82)以及乘积(1.78，0.89，1.78)进行融合，得到乘积和(3.72，6.65，7.6)。终端通过Sigmoid(S型生长曲线)函数对乘积和(3.72，6.65，7.6)进行归一化处理，得到第一注意力权重(0.97，0.99，0.99)，其中，数字分别代表视频帧A的多通道特征图中的三个单通道特征图的权重。对于视频帧B和视频帧C的第一特征向量来说，终端能够基于视频帧B分别与视频帧A的第一特征向量以及视频帧C的第一特征向量之间的余弦相似度来确定视频帧B的第一特征向量的第一注意力权重。终端能够基于视频帧C分别与视频帧A的第一特征向量以及视频帧B的第一特征向量之间的余弦相似度来确定视频帧C的第一特征向量的第一注意力权重。

需要说明的是，上述是以终端采用Sigmoid函数来获取第一注意力权重，以余弦相似度表示向量之间的相似度为例进行说明的，在其他可能的实施方式中，终端还能够采用其他激活函数来获取第一注意力权重，比如采用Softmax(软最大化)函数来对乘积和进行归一化处理，得到第一注意力权重，也能够通过向量的点积来表示向量之间的相似度，本申请实施例对此不做限定。

304、终端将多个第一注意力权重与多个多通道特征图相乘，得到多个第一注意力特征图，每个视频帧对应于一个第一注意力特征图。

在一种可能的实施方式中，终端能够通过下述公式(5)，对每个第一注意力权重和对应的多通道特征图进行处理，从而获取多个第一注意力特征图。

u_t＝x_t⊙a_t,1≤t≤T (5)

其中，u_t表示编号为t的第一注意力特征图，第一注意力特征图u_t与多通道特征图x_t相对应。

以一个多通道特征图

为例，终端能够将该多通道特征图与对应的第一注意力权重，比如(0.8，0.75，0.9)相乘，得到该多通道特征图的第一注意力特征图

终端通过上述方式，将多个多通道特征图与对应的多个第一注意力权重相乘，就能够得到多个第一注意力特征图。由于第一注意力权重表示多通道特征图与动作的相关程度，将多通道特征图与对应的第一注意力权重相乘之后，就能够突出多通道特征图中与动作相关的单通道特征图，抑制与动作无关的单通道特征图，提高后续动作识别的准确性。

305、终端基于多个第一注意力特征图进行识别，得到动作的类型。

在一种可能的实施方式中，对于任一第一注意力特征图，终端对该第一注意力特征图进行全连接处理，得到该第一注意力特征图的第一注意力特征向量。终端对该第一注意力特征向量进行归一化处理，得到该第一注意力特征向量的第一预测向量。终端基于该第一预测向量，确定动作的类型。

在这种实施方式下，由于第一注意力特征图是基于第一注意力权重确定的特征图，第一注意力权重突出了与动作相关的信息，终端基于第一注意力特征图进行动作识别，能够得到更为准确的识别效果。

举例来说，对于第一注意力特征图

来说，终端能够将第一注意力特征图与权重矩阵[2，2，3]^T相乘后与偏置矩阵[1，1，1]^T相加，得到该第一注意力特征图的三个注意力特征向量[17.8，44.8，48.8]^T、[18，32.25，30.75]^T以及[39.6，63.9，57.6]^T。终端将三个注意力特征向量进行融合，得到第一注意力特征图的第一注意力特征向量[150.8，281.9，137.15]^T。终端采用Softmax函数对该第一注意力特征向量进行归一化处理，得到该第一注意力特征向量的第一预测向量[0.26，0.50，0.24]^T。若第一预测向量[0.26，0.50，0.24]^T中的数值0.5对应的动作类型为跑步，那么终端能够将跑步确定为基于该第一注意力特征图识别的动作类型。当然，一个第一注意力特征图对应于一个视频帧，多个第一注意力特征图也就对应于多个视频帧，终端能够对多个第一注意力特征图执行上述全连接处理和归一化处理，从而得到多个第一注意力特征图的动作识别结果。终端基于多个第一注意力特征图的动作识别结果，得到目标视频中的对象在目标视频中执行的动作的类型。比如，终端能够将多个第一注意力特征图的动作识别结果中出现次数最多的动作类型确定为目标视频中的对象在目标视频中执行的动作的类型。

需要说明的是，终端除了通过多个第一注意力特征图的动作识别结果，来得到目标视频中的对象在目标视频中执行的动作的类型之外，还能够将多个第一注意力特征图对应第一预测向量进行融合，得到融合预测向量。终端对该融合预测向量进行归一化处理，得到目标视频中的对象在目标视频中执行的动作的类型。

在一种可能的实施方式中，上述步骤305还能够由下述步骤3051-3054来实现：

3051、对于任一第一注意力特征图，终端获取该第一注意力特征图上多个特征点对应的多个第二特征向量，以及该第一注意力特征图的参照注意力特征图上多个特征点对应的多个第三特征向量，参照注意力特征图对应的视频帧为与任一第一注意力特征图对应的视频帧相邻的视频帧。

其中，若目标视频中存在视频帧D和视频帧E，视频帧D和视频帧E是相邻的视频帧。在一些实施例中，视频帧D是视频帧E的前一个视频帧，该第一注意力特征图对应的视频帧为视频帧D，参照注意力特征图对应的视频帧也即是视频帧E。

在一种可能的实施方式中，由于第一注意力特征图是由多通道特征图与第一注意力权重相乘得到的特征图，那么对于每个第一注意力特征图来说，均包括多个子注意力特征图，子注意力特征图的数量与对应多通道特征图中单通道特征图的数量相同。多个子注意力特征图上相同位置的特征点对应于视频帧上的同一个像素点。终端能够将该第一注意力特征图的多个子注意力特征图上相同位置的特征点的数值进行拼接，得到多个第二特征向量，一个第二特征向量对应于视频帧上的一个像素点，也即是一个第二特征向量对应于视频帧D上的一个像素点。终端将该参照注意力特征图的多个子注意力特征图上相同位置的特征点的数值进行拼接，得到多个第三特征向量，一个第三特征向量对应于视频帧上的一个像素点，也即是一个第三特征向量对应于视频帧E上的一个像素点。

在这种实施方式下，终端从一个第一注意力特征图的多个子注意力特征图中获取每个特征点的特征向量，便于后续比较不同视频帧中相同位置上的像素点的差异，从而获取与动作相关的信息，提高后续动作识别的准确性。

举例来说，参见图4，图4包括第一注意力特征图401以及第一注意力特征图401的参照特征图402，第一注意力特征图401包括多个子注意力特征图4011，参照特征图402包括多个子注意力特征图4021。在图4中，第一注意力特征图的多个子注意力特征图4011从上至下的顺序进行排列，多个子注意力特征图4011的位置相互对齐，也即是多个子注意力特征图4011从上至下的投影为同一个投影。图4中立方体403与多个子注意力特征图4011的交点的数值也就构成了一个第二特征向量。同理，图4中立方体404与多个子注意力特征图4021的交点的数值也就构成了一个第三特征向量。

3052、终端基于多个第二特征向量和多个第三特征向量之间的相似度，确定该第一注意力特征图上多个特征点分别对应的多个第二注意力权重，第二注意力权重用于表示对应特征点与动作的相关程度。

可选地，第二注意力权重与第二特征向量和第三特征向量之间的相似度成反比，也即是，对于任一个第二特征向量来说，若对应的第三特征向量与该第二特征向量之间的相似度较高，也就表示第二特征向量和第三特征向量分别对应的两个像素点在时序上变化不大，包含的与动作相关的信息有限，相应的，在进行动作识别时，第二特征向量和第三特征向量之间的注意力权重也就较小；若对应的第三特征向量与该第二特征向量之间的相似度较低，也就表示第二特征向量和第三特征向量分别对应的像素点在时序上变化较大，包含的与动作相关的信息较多，相应的，在进行动作识别时，第二特征向量和第三特征向量之间的注意力权重也就较大。

在一种可能的实施方式中，终端能够获取多个第二特征向量与对应的多个第三特征向量之间的余弦相似度，确定该第一注意力特征图上多个特征点分别对应的多个第二注意力权重。

在这种实施方式下，终端能够通过第二特征向量和第三特征向量之间的相似度来确定不同视频帧上相同位置的像素点之间的差异，并基于该差异来确定像素点携带的动作信息，从而提高后续动作识别的准确性。

比如，终端能够通过下述公式(6)和公式(7)来获取第二特征向量与第三特征向量之间的相似度。

其中，t表示余弦相似度的序号，s_t表示第二特征向量

和第三特征向量

之间的余弦相似度，η()表示余弦相似度计算的函数，

表示第一注意力特征图xz_t上特征点(i，j)的第二特征向量，

为参照特征图xz_t+1上特征点(i，j)的第三特征向量，i和j分别为特征点的横坐标和纵坐标，||||₂为二范数。

以一个第二特征向量为[1，2，5，4，2]，与该第二特征向量对应的第三特征向量为[2，2，1，1，1]为例。终端能够获取该第二特征向量[1，2，5，4，2]与该第三特征向量[2，2，1，1，1]之间的余弦相似度0.512。终端能够将1-0.512＝0.488确定为该第二特征向量对应的特征点的第二注意力权重。

3053、终端将多个第二注意力权重与该第一注意力特征图上多个特征点相乘，得到该第一注意力特征图的第二注意力特征图。

在一种可能的实施方式中，终端能够通过下述公式(8)来获取第二注意力特征图。

v_t＝BN(Conv(xz_t·(1-s_t)))+x_t,1≤t≤T-1 (8)

其中，t表示第二注意力特征图的序号，v_t表示编号为t的第二注意力特征图，BN为激活函数，xz_t表示编号为t的第一注意力特征图。

举例来说，对于第一注意力特征图

来说，终端能够将该第一注意力特征图对应的第二注意力权重

相乘，得到该第一注意力特征图的第二注意力特征图

3054、终端基于多个第二注意力特征图进行识别，得到动作的类型。

在一种可能的实施方式中，对于任一第二注意力特征图，终端对该第二注意力特征图进行全连接处理，得到该第二注意力特征图的第一注意力特征向量。终端对该第一注意力特征向量进行归一化处理，得到该第一注意力特征向量的第一预测向量。终端基于该第一预测向量，确定动作的类型。

在这种实施方式下，由于第二注意力特征图是基于第一注意力权重确定的特征图，第一注意力权重突出了与动作相关的信息，终端基于第二注意力特征图进行动作识别，能够得到更为准确的识别效果。

举例来说，对于第二注意力特征图

来说，终端能够将第二注意力特征图与权重矩阵[2，2，3]^T相乘后与偏置矩阵[1，1，1]^T相加，得到该第二注意力特征图的三个注意力特征向量[8.96，35.84，14.4]^T、[9.6，25.2，10.35]^T以及[24.48，45.36，16.38]^T。终端将三个注意力特征向量进行融合，得到第二注意力特征图的第二注意力特征向量[43.04，106.4，41.13]^T。终端采用Softmax函数对该第二注意力特征向量进行归一化处理，得到该第二注意力特征向量的第二预测向量[0.23，0.56，0.21]^T。若第二预测向量[0.23，0.56，0.21]^T中的数值0.56对应的动作类型为跑步，那么终端能够将跑步确定为基于该第二注意力特征图识别的动作类型。当然，一个第二注意力特征图对应于一个视频帧，多个第二注意力特征图也就对应于多个视频帧，终端能够对多个第二注意力特征图执行上述全连接处理和归一化处理，从而得到多个第二注意力特征图的动作识别结果。终端基于多个第二注意力特征图的动作识别结果，得到目标视频中的对象在目标视频中执行的动作的类型。比如，终端能够将多个第二注意力特征图的动作识别结果中出现次数最多的动作类型确定为目标视频中的对象在目标视频中执行的动作的类型。

通过上述步骤3051-3054，终端能够在确定第一注意力权重的基础上，进一步确定第二注意力权重，第一注意力权重和第二注意力权重均用于突出与动作相关的特征，基于第一注意力权重和第二注意力权重进行动作识别，能够提高动作识别的准确性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为了对上述步骤301-305进行更加清楚的说明，下面将结合上述各个可选地实施方式、图5、图6以及图7进行说明。

在一些实施例中，上述步骤302-305能够由一个动作识别模型的不同模块来执行，比如，参见图5，上述步骤302由该动作识别模型501的特征提取模块5011来执行，上述步骤303和304由该动作识别模型501的通道运动增强模块(Channel-wise MotionEnhancement，CME)5012来执行，上述步骤305中第一种实施方式由该动作识别模型501的预测模块5013来执行；在步骤305的第二种实施方式中，步骤3051-3053由该动作识别模型501的空间运动增强模块(Spatial-wise Motion Enhancement，SME)5014执行，步骤3054由预测模块5013执行。

图6是通道运动增强模块5012的原理图，下面结合图6对通道运动增加模块5012的处理过程进行说明。

其中，通道运动增强模块5012中的“通道”也即是上述步骤301-305中的“维度”，一个通道对应于一个维度。参见图6，包括三个多通道特征图x₁、x_i和x_T，三个多通道特征图x₁、x_i和x_T对应于目标视频中的三个视频帧。终端能够通过通道运动增强模块5012，对三个多通道特征图x₁、x_i和x_T进行全局均值池化，得到三个多通道特征图对应的三个第一特征向量z₁、z_i以及z_T。在一些实施例中，对于三个第一特征向量z₁、z_i以及z_T来说，z₁是序号为1的第一特征向量，在上述公式(1)中也即是第一个第一特征向量，z_i也即是序号为i的第一特征向量，i为与t具有相同取值范围的正整数，z_T也即是序号为T的第一特征向量，在上述公式(1)中也即是最后一个第一特征向量。终端通过通道运动增强模块5012获取三个第一特征向量z₁、z_i以及z_T，也即是采用公式(1)分别对三个多通道特征图x₁、x_i和x_T进行处理，得到三个第一特征向量z₁、z_i以及z_T。

终端通过通道运动增强模块5012，获取三个第一特征向量z₁、z_i以及z_T之间的d_1i、d_1T以及d_iT，其中，d_1i也即是第一特征向量z₁和z_i之间的，d_1T也即是第一特征向量z₁和z_T之间的，d_iT也即是第一特征向量z_i和z_T之间的相似度，可选地，相似度为两个第一特征向量之间的余弦相似度，或者为两个第一特征向量的点积，在一些实施例中，终端通过通道运动增强模块5012，获取三个第一特征向量z₁、z_i以及z_T之间的d_1i、d_1T以及d_iT的过程，也即是分别将z₁、z_i以及z_T带入上述公式(2)，得到d_1i、d_1T以及d_iT的过程。

终端通过通道运动增强模块5012获取三个第一特征向量z₁、z_i以及z_T与对应的d_1i、d_1T以及d_iT之间的乘积和

以及

在一些实施例中，对于获取三个第一特征向量z₁、z_i以及z_T与对应的d_1i、d_1T以及d_iT之间的乘积和

以及

来说，也即是将z₁、z_i以及z_T与对应的d_1i、d_1T以及d_iT分别带入上述公式(3)，从而得到乘积和

以及

终端能够通过通道运动增强模块5012，对三个多通道特征图分别对应的乘积和进行归一化处理(σ)，得到三个多通道特征图x₁、x_i和x_T分别对应的三个第一注意力权重a₁、a_i以及a_T。在一些实施例中，终端通过通道运动增强模块5012，获取三个多通道特征图x₁、x_i和x_T分别对应的三个第一注意力权重a₁、a_i以及a_T，也即是将三个多通道特征图x₁、x_i和x_T分别对应的乘积和

以及

分别带入上述公式(4)，从而得到三个第一注意力权重a₁、a_i以及a_T。

终端将三个多通道特征图x₁、x_i和x_T分别与对应的三个第一注意力权重a₁、a_i以及a_T相乘，得到三个第一注意力特征图u₁、u_i以及u_T。在一些实施例中，端通过通道运动增强模块5012，获取三个第一注意力特征图u₁、u_i以及u_T，也即是将三个多通道特征图x₁、x_i和x_T以及分别对应的三个第一注意力权重a₁、a_i以及a_T带入上述公式(5)，从而得到三个第一注意力特征图u₁、u_i以及u_T。

图7是空间运动增强模块5014的原理图，下面将结合图7对空间运动增强模块5014的处理过程进行说明。

参见图7，包括第一注意力特征图以及第一注意力特征图的参照特征图，第一注意力特征图为视频帧F对应的注意力特征图，参照特征图为视频帧G对应的注意力特征图。以一个特征点为例，终端能够通过空间运动增强模块5014，获取第一注意力特征图上特征点对应的第二特征向量，以及参照特征图上相同位置特征点对应的第三特征向量。终端能够通过空间运动增强模块5014，获取第二特征向量与第三特征向量之间的余弦相似度，在一些实施例中，终端通过空间运动增强模块5014来获取第二特征向量与第三特征向量之间的余弦相似度的过程，也即将第二特征向量和第三特征向量带入上述公式(6)和公式(7)，从而得到对应余弦相似度的过程。

终端通过空间运动增强模块5014，基于该余弦相似度确定特征点的第二注意力权重，将第二注意力权重与对应特征点相乘，得到第二注意力特征图。在一些实施例中，终端通过空间运动增强模块5014，基于上述公式(8)来获取第二注意力特征图。

需要说明的是，在动作识别模型中，能够包括多个通道运动增强模块5012和多个空间运动增强模块5014，通道运动增强模块5012和空间运动增强模块5014能够在动作识别模型中进行交叉使用，在一些实施例中，若一个模块仅包括通道运动增强模块5012时，被称为CMR—BlockA；若一个模块同时包括运动增强模块5012和空间运动增强模块5014时，被称为CMR—BlockB，CMR—BlockA和CMR—BlockB的一个交替示例参见图8。

在实验过程中，对于CME模块，需要重点观察的问题是：来自前层的多通道特征图经过CME模块提取到动作相关的注意力信息用以强化部分多通道特征图，哪些多通道特征图被强化(赋予较大权重)，而哪些被选择弱化(赋予较小权重)，这些通道携带了什么信息，其是否与动作相关，能否体现动作注意力机制。因此这里将被CME强化的多通道特征图和弱化的多通道特征图进行可视化。首先将输入一个CMR-BlockB模块的多通道特征图提出，然后对每一帧的多通道特征图按照CME模块所生成的第一注意力权重进行降序重排。每一帧的多通道特征图的前十和后十个将被挑选出并分成两组，每一组计算十个多通道特征图的均值将其压缩到一个通道，最终这一个特征图将被用于生成对应热图。参见图9，前四行图像所示，第三行和第四行分别展示得分最高的top-10和bottom-10按照上述规则生成的热图，第一行和第二行分别是原始视频帧和多通道特征图的所有单通道特征图的平均值图像。从可视化结果可以观察到，在被CME挑选出将被强化的前10个多通道特征图中，运动的物体所在区域上有明显更高的关注度，而将被抑制的10个多通道特征图对静态的背景区域更为敏感。也就是说，本申请提供的CME模块，能够有效地对注意力信息加以区分，对运动目标敏感的多通道特征图将得到加强，而对倾向于描述静态背景信息的多通道特征图将得到抑制。

对于SME模块，将该CMR-BlockB所生成的第二注意力权重图进行可视化。如图9后两行所示，第一行为原始视频帧，第二行展示了将第二注意力权重的热图叠加到原始视频帧后的效果图。观察到，仅当视频帧间出现位置或形态变化的对象时，才会在该对象所在位置出现高亮区域，该区域内的特征数值将被以赋予较高的权值，以达到体现其重要性的目的和作用。

在实验过程中，采用了数据集something-something v1和v2来对不同结构的模型进行测试，其中，数据集something-something v1包括108499个测试视频，数据集something-something v2包括220847个测试视频，数据集something-something v1和v2均包括174个动作类别。在采用数据集something-something v1和v2中的测试视频进行测试时，对视频数据进行预处理，也即是将测试视频中的视频帧的短边的尺寸调整为256，然后进行中心裁剪和尺度抖动，随后将每个视频帧的尺寸调整为224×224。对于数据集something-something v1和v2来说，从数据集中的每个测试视频中均匀采样8或16帧作为一个测试集，将测试集输入不同的模型。

表1

表1给出了本申请中提出的方法和其他先进算法在其中，I3D的全称为(Inflated3D Conv Net，膨胀卷积网络)，NL-I3D为I3D网络的一个分支，NL-I3D+GCN的全称为(Inflated 3D Conv Net+Graph Convolutional Network，膨胀卷积网络+图卷积网络)，ECO的全称为(Efficient Convolution Operators for Tracking，高效卷积跟踪算法)，TSM的全称为(Temporal Shift Module，视频动作分类网络)，TEI的全称为(Towards anEfficient Architecture for Video Recognition，高效视频识别模型)，STM的全称为(Structural Topic Model，命题结构模型)，TEA的全称为(Temporal Excitation andAggregation for Action Recognition，动作识别模型)，GSM的全称为(Gate-ShiftNetworks for Video Recognition，门转换视频识别模型)，TDRL的全称为(TemporalDistinct Representation Learning For Action Recognition，基于时间差异表征的动作识别模型)，CMR的全称为(Comprehensive Motion Representation for ActionRecognition，基于综合运动表示的动作识别模型)，CMR也即是申请实施例提供模型，其结构基于ResNet-50。另外，对于ResNet来说，其全称是(Residual Network，残差网络)，ResNet后的数值为模型深度。Inception V3为创始网络第三版。

从表1中可以看出，相较于ResNet2D方法，也即是TDRL来说，本申请实施例提供的技术方案(CMR)在8帧的条件下，在something-something v1中的准确性提高了1.5％，在something-something v2中的准确性提高了1.1％。在16帧的条件下，在something-something v1中的准确性提高2.3％，在something-something v2中的准确性提高了1.9％。与其他方法相比，也可以看到本申请提供的方法(CMR)在与其他算法保持相近甚至更少的计算量的前提下，达到了更高的预测精度。

另外，为了对模型的有效性进行验证，在ResNet模型的基础上，以不同方式插入本申请实施例提供的CME模块和SME模块进行测试，结果如表2-表4所示。

表2

方法	Top-1
		ResNet-50	18.1
ResNet-50+CME和SME	43.5
		ResNet-50+TIM	46.1
ResNet-50+TIM+CME和SME	51.3

表3

方法	Top-1	Top-5	延迟
				基线+CME<sub>all</sub>+SME<sub>all</sub>	51.0	79.3	30.4ms
基线+CME<sub>all</sub>+SME<sub>part</sub>	51.3	79.8	21.4ms
				基线+CME<sub>part</sub>+SME<sub>all</sub>	51.2	79.2	26.5ms
基线+CME<sub>part</sub>+SME<sub>part</sub>	50.4	78.6	17.4ms

表4

方法	Top-1	Top-5
			ResNet-50+TIM(基线)	46.1	74.7
基线+MEM	47.4	76.6
			基线+PEM	48.7	77.8
基线+CME	50.6	79.4
			基线+SME	50.6	78.9
基线+CME和SME	51.3	79.8

其中，TIM的全称为Temporal Interaction Module，也即是时间交互模块。MEM的全称为Motion Enchanced Module，也即是运动增强模块。PEM的全称是ProgressiveEnhancement Module，也即是先进增强模块，TIM、MEM以及PEM均为相关技术中的增强模块。

Top-1表示对于一个视频帧，只判断概率最高的结果是否为正确结果的概率，Top-5表示对于一个视频帧，判断概率排名前5的结果中包括正确结果的概率，延迟表示动作识别的时间，延迟越小，性能越好。

图10是本申请实施例提供的一种动作识别方法的流程图，参见图10，方法包括：

1001、终端获取目标视频中的多个视频帧。

1002、终端按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

1003、终端基于每两个相邻视频帧的多通道特征图上多个特征点之间的相似度，确定每个特征点的第三注意力权重，第三注意力权重用于表示对应特征点与目标视频中的对象在目标视频中执行的动作的相关程度。

其中，若目标视频中存在运动的对象，那么在目标视频的不同视频帧中，该对象的位置可能存在差异。体现在视频帧的多通道特征图上，若两个多通道特征图上相同位置的特征点的相似度较高，那么该对象在该两个多通道特征图对应的视频帧中可能未进行运动或者运动的幅度较小；若两个多通道特征图上相同位置的特征点的相似度较低，那么该对象在该两个多通道特征图对应的视频帧中可能进行了运动。计算机设备能够采用第三注意力权重来表示多通道特征图中特征点与运动的相关程度，从而在后续的动作识别过程中，能够集中在于动作相关程度较高的特征点进行识别。

1004、终端基于多个多通道特征图和确定的多个第三注意力权重，确定动作的类型。

终端能够基于第三注意力权重来强化与运动相关的多通道特征图，从而提高动作识别的准确性。

通过本申请实施例提供的技术方案，在对目标视频进行动作识别的过程中，结合了目标视频中多个视频帧上特征点之间的相似度，由于动作变化会导致视频帧上特征点相似度变化，因此相似度也就能够反映动作的连续性。基于相似度得到的注意力权重也就能够表示特征图与动作的相关程度，基于注意力权重和视频帧的多通道特征图进行动作识别，能够提高动作识别的准确性。

图11是本申请实施例提供的一种动作识别方法的流程图，参见图11，方法包括：

1101、终端获取目标视频中的多个视频帧。

步骤1101与上述步骤301属于同一发明构思，实现过程参见步骤301的相关描述，在此不再赘述。

1102、终端按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

步骤1102与上述步骤302属于同一发明构思，实现过程参见步骤301的相关描述，在此不再赘述。

1103、对于任一视频帧的多通道特征图，终端获取该视频帧的多通道特征图上多个特征点对应的多个第四特征向量，以及与该视频帧相邻的参考视频帧的多通道特征图上多个特征点对应的多个第五特征向量。

在一种可能的实施方式中，每个多通道特征图多个单通道特征图。多个单通道特征图上相同位置的特征点对应于视频帧上的同一个像素点。终端能够将该多通道特征图的多个单通道特征图上相同位置的特征点的数值进行拼接，得到多个第四特征向量，一个第四特征向量对应于一个像素点。终端将该参考视频帧的多通道特征图的多个单通道特征图上相同位置的特征点的数值进行拼接，得到多个第五特征向量，一个第五特征向量对应于一个像素点。

在这种实施方式下，终端从对一个多通道特征图的多个单通道特征图中获取每个特征点的特征向量，便于后续比较不同视频帧中相同位置上的像素点的差异，从而获取与动作相关的信息，提高后续动作识别的准确性。

1104、终端基于多个第四特征向量和多个第五特征向量，确定任一视频帧的多个第三注意力权重，第三注意力权重用于表示对应特征点与目标视频中的对象在目标视频中执行的动作的相关程度。

可选地，第三注意力权重与第四特征向量和第五特征向量之间的相似度成反比，也即是，对于任一个第四特征向量来说，若对应的第五特征向量与该第四特征向量之间的相似度较高，也就表示第四特征向量和第五特征向量分别对应的两个像素点在时序上变化不大，包含的与动作相关的信息有限，相应的，在进行动作识别时，第四特征向量和第五特征向量之间的注意力权重也就较小；若对应的第五特征向量与该第四特征向量之间的相似度较低，也就表示第四特征向量和第五特征向量分别对应的像素点在时序上变化较大，包含的与动作相关的信息较多，相应的，在进行动作识别时，第四特征向量和第五特征向量之间的注意力权重也就较大。

在一种可能的实施方式中，终端能够获取多个第四特征向量与对应的多个第五特征向量之间的余弦相似度，确定该第一注意力特征图上多个特征点分别对应的多个第三注意力权重。

在这种实施方式下，终端能够通过第四特征向量和第五特征向量之间的相似度来确定不同视频帧上相同位置的像素点之间的差异，并基于该差异来确定像素点携带的动作信息，从而提高后续动作识别的准确性。

以一个第四特征向量为[1，1，2，3，2]，与该第四特征向量对应的第五特征向量为[1，2，3，1，1]为例。终端能够获取该第四特征向量[1，1，2，3，2]与该第五特征向量[1，2，3，1，1]之间的余弦相似度0.80。终端能够将1-0.80＝0.20确定为该第四特征向量对应的特征点的第三注意力权重。

1105、终端基于多个多通道特征图和确定的多个第三注意力权重，确定动作的类型。

在一种可能的实施方式中，终端将多个第三注意力权重与多个多通道特征图相乘，得到多个第三注意力特征图，每个视频帧对应于一个第三注意力特征图。基于多个第三注意力特征图进行识别，得到动作的类型。

举例来说，终端基于每两个第三注意力特征图之间的相似度，确定每个第三注意力特征图的第四注意力权重，第四注意力权重用于表示对应第三注意力特征图与动作的相关程度。终端基于多个第三注意力特征图和确定的多个第四注意力权重，确定动作的类型。

图12是本申请实施例提供的一种动作识别装置结构示意图，参见图12，装置包括：第一获取单元1201、第一特征提取单元1202、第一注意力权重确定单元1203以及第一类型确定单元1204。

第一获取单元1201，用于获取目标视频中的多个视频帧。

第一特征提取单元1202，用于按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

第一注意力权重确定单元1203，用于基于每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重，第一注意力权重用于表示对应多通道特征图与目标视频中的对象在目标视频中执行的动作的相关程度。

第一类型确定单元1204，用于基于多个多通道特征图和确定的多个第一注意力权重，确定动作的类型。

在一种可能的实施方式中，第一特征提取单元用于，对于任一视频帧，采用多个卷积核对任一视频帧进行特征提取，得到多个卷积核分别对应的多个单通道特征图，每个卷积核用于提取一个维度的特征图。将多个单通道特征图进行拼接，得到任一视频帧的多通道特征图。

在一种可能的实施方式中，第一注意力权重确定单元，用于对多个多通道特征图进行降维处理，得到多个第一特征向量，每个多通道特征图对应于一个第一特征向量。

基于多个第一特征向量中每两个第一特征向量之间的相似度，确定多个第一注意力权重。

在一种可能的实施方式中，第一注意力权重确定单元，用于对于任一多通道特征图，分别对任一多通道特征图中的多个单通道特征图进行降维处理，得到多个单通道特征图分别对应的多个特征值。将多个特征值进行组合，得到任一多通道特征图的第一特征向量。

在一种可能的实施方式中，第一注意力权重确定单元，用于对于任一第一特征向量，分别获取任一第一特征向量与多个第一特征向量之间的多个相似度。基于多个第一特征向量与对应相似度的乘积之和，确定任一第一特征向量的第一注意力权重。

在一种可能的实施方式中，第一注意力权重确定单元，用于对多个第一特征向量与对应相似度的乘积之和进行归一化处理，得到任一第一特征向量的第一注意力权重。

在一种可能的实施方式中，第一类型确定单元，用于将多个第一注意力权重与多个多通道特征图相乘，得到多个第一注意力特征图，每个视频帧对应于一个第一注意力特征图。基于多个第一注意力特征图进行识别，得到动作的类型。

在一种可能的实施方式中，第一类型确定单元，用于对于任一第一注意力特征图，获取任一第一注意力特征图上多个特征点对应的多个第二特征向量，以及任一第一注意力特征图的参照注意力特征图上多个特征点对应的多个第三特征向量，参照注意力特征图对应的视频帧为与任一第一注意力特征图对应的视频帧相邻的视频帧。基于多个第二特征向量和多个第三特征向量之间的相似度，确定任一第一注意力特征图上多个特征点分别对应的多个第二注意力权重，第二注意力权重用于表示对应特征点与动作的相关程度。将多个第二注意力权重与任一第一注意力特征图上多个特征点相乘，得到任一第一注意力特征图的第二注意力特征图。基于多个第二注意力特征图进行识别，得到动作的类型。

需要说明的是：上述实施例提供的动作识别装置在识别动作时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动作识别装置与动作识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种动作识别装置结构示意图，参见图13，装置包括：第二获取单元1301、第二特征提取单元1302、第三注意力权重确定单元1303以及第二类型确定单元1304。

第二获取单元1301，用于获取目标视频中的多个视频帧。

第二特征提取单元1302，用于按照多个维度对多个视频帧分别进行特征提取，得到多个多通道特征图，每个视频帧对应于一个多通道特征图，每个通道代表一个维度。

第三注意力权重确定单元1303，用于基于每两个相邻视频帧的多通道特征图上多个特征点之间的相似度，确定每个特征点的第三注意力权重，第三注意力权重用于表示对应特征点与目标视频中的对象在目标视频中执行的动作的相关程度。

第二类型确定单元1304，用于基于多个多通道特征图和确定的多个第三注意力权重，确定动作的类型。

在一种可能的实施方式中，第三注意力权重确定单元，用于对于任一视频帧的多通道特征图，获取任一视频帧的多通道特征图上多个特征点对应的多个第四特征向量，以及与任一视频帧相邻的参考视频帧的多通道特征图上多个特征点对应的多个第五特征向量。基于多个第四特征向量和多个第五特征向量，确定任一视频帧的多个第三注意力权重。

在一种可能的实施方式中，第二类型确定单元，用于将多个第三注意力权重与多个多通道特征图相乘，得到多个第三注意力特征图，每个视频帧对应于一个第三注意力特征图。基于多个第三注意力特征图进行识别，得到动作的类型。

在一种可能的实施方式中，第二类型确定单元，用于基于每两个第三注意力特征图之间的相似度，确定每个第三注意力特征图的第四注意力权重，第四注意力权重用于表示对应第三注意力特征图与动作的相关程度。基于多个第三注意力特征图和确定的多个第四注意力权重，确定动作的类型。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是：智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

通常，终端1400包括有：一个或多个处理器1401和一个或多个存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1401所执行以实现本申请中方法实施例提供的动作识别方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。

定位组件1408用于定位终端1400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1412可以终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。

压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。

接近传感器1416用于采集用户与终端1400的正面之间的距离。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1501和一个或多个的存储器1502，其中，所述一个或多个存储器1502中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1500还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的动作识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述动作识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

获取目标视频中的多个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述按照多个维度对所述多个视频帧分别进行特征提取，得到多个多通道特征图包括：

对于任一视频帧，采用多个卷积核对所述任一视频帧进行特征提取，得到所述多个卷积核分别对应的多个单通道特征图，每个卷积核用于提取一个维度的特征图；

将所述多个单通道特征图进行拼接，得到所述任一视频帧的多通道特征图。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个多通道特征图中每两个多通道特征图之间的相似度，确定每个多通道特征图的第一注意力权重包括：

对所述多个多通道特征图进行降维处理，得到多个第一特征向量，每个多通道特征图对应于一个第一特征向量；

4.根据权利要求3所述的方法，其特征在于，所述对所述多个多通道特征图进行降维处理，得到多个第一特征向量包括：

对于任一多通道特征图，分别对所述任一多通道特征图中的多个单通道特征图进行降维处理，得到所述多个单通道特征图分别对应的多个特征值；

将所述多个特征值进行组合，得到所述任一多通道特征图的第一特征向量。

5.根据权利要求3所述的方法，其特征在于，所述基于所述多个第一特征向量中每两个第一特征向量之间的相似度，确定每个第一特征向量的第一注意力权重包括：

对于任一第一特征向量，分别获取所述任一第一特征向量与所述多个第一特征向量之间的多个相似度；

基于所述多个第一特征向量与对应相似度的乘积之和，确定所述任一第一特征向量的第一注意力权重。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多个第一特征向量与对应相似度的乘积之和，确定所述任一第一特征向量的第一注意力权重包括：

对所述多个第一特征向量与对应相似度的乘积之和进行归一化处理，得到所述任一第一特征向量的第一注意力权重。

7.根据权利要求1所述的方法，其特征在于，所述基于所述多个多通道特征图和确定的多个第一注意力权重，确定所述动作的类型包括：

将所述多个第一注意力权重与所述多个多通道特征图相乘，得到多个第一注意力特征图，每个视频帧对应于一个第一注意力特征图；

基于所述多个第一注意力特征图进行识别，得到所述动作的类型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述多个第一注意力特征图进行识别，得到所述动作的类型包括：

对于任一第一注意力特征图，获取所述任一第一注意力特征图上多个特征点对应的多个第二特征向量，以及所述任一第一注意力特征图的参照注意力特征图上多个特征点对应的多个第三特征向量，所述参照注意力特征图对应的视频帧为与所述任一第一注意力特征图对应的视频帧相邻的视频帧；

基于所述多个第二特征向量和所述多个第三特征向量之间的相似度，确定所述任一第一注意力特征图上多个特征点分别对应的多个第二注意力权重，所述第二注意力权重用于表示对应特征点与所述动作的相关程度；

将所述多个第二注意力权重与所述任一第一注意力特征图上多个特征点相乘，得到所述任一第一注意力特征图的第二注意力特征图；

基于多个所述第二注意力特征图进行识别，得到所述动作的类型。

9.一种动作识别方法，其特征在于，所述方法包括：

获取目标视频中的多个视频帧；

10.根据权利要求9所述的方法，其特征在于，所述基于每两个相邻视频帧的多通道特征图上多个特征点之间的相似度，确定每个特征点的第三注意力权重包括：

对于任一视频帧的多通道特征图，获取所述任一视频帧的多通道特征图上多个特征点对应的多个第四特征向量，以及与所述任一视频帧相邻的参考视频帧的多通道特征图上多个特征点对应的多个第五特征向量；

基于所述多个第四特征向量和所述多个第五特征向量，确定所述任一视频帧的多个第三注意力权重。

11.根据权利要求9所述的方法，其特征在于，所述基于所述多个多通道特征图和确定的多个第三注意力权重，确定所述动作的类型包括：

将所述多个第三注意力权重与所述多个多通道特征图相乘，得到多个第三注意力特征图，每个视频帧对应于一个第三注意力特征图；

基于所述多个第三注意力特征图进行识别，得到所述动作的类型。

12.一种动作识别装置，其特征在于，所述装置包括：

第一获取单元，用于获取目标视频中的多个视频帧；

13.一种动作识别装置，其特征在于，所述装置包括：

第二获取单元，用于获取目标视频中的多个视频帧；

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求8任一项所述的动作识别方法，或实现如权利要求9至权利要求11任一项所述的动作识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的动作识别方法，或实现如权利要求9至权利要求11任一项所述的动作识别方法。