CN114724254A

CN114724254A - 确定动作类别的方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114724254A
Application number: CN202210531979.XA
Authority: CN
Inventors: 刘胜蓝; 刘铠源; 黄军; 张翰迪; 程军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-08
Anticipated expiration: 2042-05-16
Also published as: CN114724254B

Abstract

本公开提供了一种确定动作类别的方法、装置、设备、存储介质及程序产品，涉及计算机技术领域，尤其涉及人工智能、深度学习以及图像检测技术领域。具体实现方案为：确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图；对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构；根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定目标骨骼节点数据的目标特征张量；以及根据目标特征张量，确定目标视频数据的目标动作类别。

Description

确定动作类别的方法、装置、设备、存储介质及程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、深度学习以及图像检测技术领域。

背景技术

随着计算机技术的发展，图像检测成为计算机技术领域的一个重要应用分支。图像检测可以服务于生产、生活的各个方面，例如图像检测可以用于确定视频数据显示的对象所作出的动作的类别。

发明内容

本公开提供了一种确定动作类别的方法、装置、设备、存储介质及程序产品。

根据本公开的一方面，提供了一种确定动作类别的方法，包括：确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图，其中，视频帧数据包括骨骼节点数据，骨骼节点数据包括多个骨骼独立节点，骨骼节点注意力图表征视频帧数据的任意两个骨骼独立节点之间相关性的注意力分布；对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构；根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定目标骨骼节点数据的目标特征张量，其中，目标骨骼节点数据是根据骨骼节点数据得到的；以及根据目标特征张量，确定目标视频数据的目标动作类别。

根据本公开的另一方面，提供了一种确定动作类别的装置，包括：骨骼节点注意力图确定模块、骨骼节点注意力图树结构确定模块、目标特征张量确定模块以及目标动作类别确定模块。骨骼节点注意力图确定模块，用于确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图，其中，视频帧数据包括骨骼节点数据，骨骼节点数据包括多个骨骼独立节点，骨骼节点注意力图表征视频帧数据的任意两个骨骼独立节点之间相关性的注意力分布；骨骼节点注意力图树结构确定模块，用于对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构；目标特征张量确定模块，用于根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定目标骨骼节点数据的目标特征张量，其中，目标骨骼节点数据是根据骨骼节点数据得到的；目标动作类别确定模块，用于根据目标特征张量，确定目标视频数据的目标动作类别。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的确定动作类别的方法和装置的系统架构图；

图2示意性示出了根据本公开实施例的确定动作类别的方法的流程图；

图3示意性示出了根据本公开一实施例的得到多个骨骼节点注意力图树结构的示意图；

图4示意性示出了根据本公开另一实施例的得到骨骼节点注意力图树结构的示意图；

图5示意性示出了根据本公开一实施例的确定目标骨骼节点数据的目标特征张量的示意图；

图6A示意性示出了根据本公开一实施例的确定动作类别的方法的根据特征张量，确定目标特征张量以及根据目标特征张量，确定目标视频数据的目标动作类别的示意图；

图6B示意性示出了根据本公开另一实施例的确定动作类别的方法的根据特征张量，确定目标特征张量以及根据目标特征张量，确定目标视频数据的目标动作类别的示意图；

图7示意性示出了根据本公开实施例的确定动作类别的装置的框图；以及

图8示意性示出了可以实现本公开实施例的确定动作类别的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

目前，以人体对象为检测目标的图像检测和图像感知技术已经取得较大发展。例如，图像检测和图像感知技术可以应用于人体对象的姿态估计，一些实施例可以做到在移动端设备上进行实时的骨架检测，并拥有较高的准确度。例如，针对以运动为中心的动作任务，骨架模态由于不包含复杂的背景信息，相比于基于RGB颜色系统(RGB的R、G、B分别指Red、Green、Blue，即红绿蓝三原色)进行动作检测的方式，基于骨架模态进行动作检测的可靠性和鲁棒性更高。因此，许多基于人体对象的动作的潜在应用得以实现，诸如日常生活护理、视频安全与监控、体育活动分析等。

例如以下一些实施例，可以基于骨骼节点进行动作检测，但是这些实施例都是粗粒度的基于骨骼节点进行动作检测的方法。在许多实际的应用场景中，需要检测更为精细的细粒度动作。例如在体育活动的分析中，许多动作有着极高的相似度，这些相似度高的动作集中在一个特定的动作范围内，只有局部的骨骼结构不同。例如，乒乓球运动中的拉球与侧身拉球，主要区别在于上半身的倾斜角度。

在一种实现方式中，利用卷积神经网络(Convolutional Neural Network，简称为CNN)或循环神经网络(Recurrent Neural Network，简称为RNN)进行动作检测。

在该实现方式中，将人体骨骼节点作为相互独立的特征，并利用人工设计的规则生成特征序列或根据骨骼节点的坐标生成伪图像，随时间维度的变化将整个视频的骨架数据自然的组织成特征序列。最终将这些特征序列或伪图像输入卷积神经网络或循环神经网络来预测动作标签。

上述方法中，利用卷积神经网络或循环神经网络进行动作检测的方法忽略了骨骼节点之间的内在相关性，而骨骼节点之间的相关性揭示了人体对象的骨骼拓扑结构，人体对象作出的动作均基于该骨骼拓扑结构，忽略骨骼节点之间的内在相关性造成动作类别预测准确性较低。

在另一种实现方式中，利用图卷积网络(Graph Convolutional Network，简称为GCN)进行动作检测。

由于骨架模态本身是以图数据结构的形式存储的，图数据结构是一种非欧几里德的数据，不具备平移不变性，因此，无法应用CNN的卷积方法。利用图卷积网络进行动作检测时，将每个时间步上的人体对象的每一个骨骼节点视为一个图结构数据的节点，并各自将时间维度和空间维度上的相邻节点用边连接起来，然后在构造的图数据结构上应用图卷积层来进行动作检测。

在上述方法中，利用图卷积网络进行动作检测的方法依赖于相关人员手工设计的遍历规则或图拓扑来绘制关节之间的依赖关系，在面对实际应用场景下的细粒度动作时，这种方法发挥的性能和可泛化性方面是有限的。

在另一种实现方式中，利用注意力机制(Attention Mechanism)进行动作检测。

注意力机制通过学习不同骨骼节点之间的全局相关性，为发现有用的时空运动模式提供了更多的灵活性。对于骨架数据，使用自注意机制有一个额外的优点：具有较低的计算复杂度和并行性。

在上述实现方式中，利用注意力机制进行动作检测的方法着重于如何构造具有较强鲁棒性的全局动态图拓扑。但在对细粒度动作进行动作检测的场景下，存在：不同动作对应相同或者类似的全局图拓扑，而细粒度动作里最重要的局部细微差异没有被考虑。

综上，这些实施例在应用于细粒度的动作检测场景下的性能欠佳。

图1示意性示出了根据本公开一实施例的确定动作类别的方法和装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括客户端101、102、103，网络104和服务器105。网络104用以在客户端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用客户端101、102、103通过网络104与服务器105交互，以接收或发送消息等。客户端101、102、103上可以安装有各种通讯客户端应用，例如视频播放应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

客户端101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。本公开实施例的客户端101、102、103例如可以运行应用程序。

服务器105可以是提供各种服务的服务器，例如对用户利用客户端101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给客户端。另外，服务器105还可以是云服务器，即服务器105具有云计算功能。

需要说明的是，本公开实施例所提供的确定动作类别的方法可以由服务器105执行。相应地，本公开实施例所提供的确定动作类别的装置可以设置于服务器105中。本公开实施例所提供的确定动作类别的方法也可以由不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的确定动作类别的装置也可以设置于不同于服务器105且能够与客户端101、102、103和/或服务器105通信的服务器或服务器集群中。

在一种示例中，服务器105可以通过网络104获取来自客户端101、102、103的目标视频数据，并确定目标视频数据的目标动作类别。

应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端、网络和服务器。

应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本公开实施例提供了一种确定动作类别的方法，下面结合图1的系统架构，参考图2～图6B来描述根据本公开示例性实施方式的确定动作类别的方法。本公开实施例的确定动作类别的方法例如可以由图1所示的服务器105来执行。

图2示意性示出了根据本公开一实施例的确定动作类别的方法的流程图。

如图2所示，本公开实施例的确定动作类别的方法200例如可以包括操作S210～操作S240。

在操作S210，确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图。

目标视频数据可以理解为包括多个视频帧数据的视频格式数据，视频帧数据包括骨骼节点数据。以下将以视频帧数据显示人体对象数据，骨骼节点数据包括人体对象数据的关节点数据为例进行说明。

骨骼节点数据可以理解为统称的人体对象数据的关节点数据，骨骼节点数据包括多个骨骼独立节点，骨骼独立节点可以理解为人体对象数据的关节点。

由于目标视频数据包括多个视频帧数据，可以根据每一个视频帧数据，确定对应的骨骼节点注意力图，由此得到多个骨骼节点注意力图。以某一个骨骼节点注意力图为例，该骨骼节点注意力图表征相应的视频帧数据的任意两个骨骼独立节点之间相关性的注意力分布。具体地，骨骼节点注意力图例如可以利用矩阵的形式表征，矩阵的元素数值表征元素索引相应的两个骨骼独立节点之间的相关性数值。可以理解，在视频帧数据的骨骼节点数据包括N个骨骼独立节点时，骨骼注意力图可以利用一个N*N的矩阵表征。

可以理解，针对某一个视频帧数据，相应的骨骼节点注意力图可以表征该视频帧数据的骨骼节点数据的整体依赖关系。

在操作S220，对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构。

解耦分类可以理解为将骨骼节点注意力图进行解耦和自适应分类的过程，例如，骨骼节点注意力图可以通过解耦分类，可以形成多个部分骨骼节点注意力图，每一个部分骨骼节点注意力图表征骨骼节点注意力图的某一部分，可以根据树结构的形式组织每一个部分骨骼节点注意力图，得到骨骼节点注意力图树结构。可以理解，树结构包括根节点、子节点、深度以及叶节点等。

可以理解，由于骨骼节点注意力图通过解耦分类可以形成多个部分骨骼节点注意力图，每一个部分骨骼节点注意力图可以表征骨骼节点注意力图的某一部分，因此，针对某一个视频帧数据，根据树结构的形式组织每一个部分骨骼节点注意力图得到的骨骼节点注意力图树结构可以表征该视频帧的骨骼节点数据的局部依赖关系。

需要说明的是，由于目标视频数据包括多个视频帧数据，因此可以得到多个骨骼节点注意力图。操作S220的“对骨骼节点注意力图进行至少一个层级的解耦分类”可以理解为对每一个骨骼节点注意力图分别进行至少一个层级的解耦分类，由此可以得到多个骨骼节点注意力树结构。

在操作S230，根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定目标骨骼节点数据的目标特征张量。

目标骨骼节点数据是根据骨骼节点数据得到的。具体地，目标视频数据包括多个视频帧数据，一个视频帧数据对应一个骨骼节点数据，由此，例如可以针对一个目标视频数据，集合该目标视频数据的所有视频帧数据的骨骼节点数据，得到目标骨骼节点数据。

在操作S240，根据目标特征张量，确定目标视频数据的目标动作类别。

本公开实施例的确定动作类别的方法，是一种基于骨骼节点进行动作类别确定的方法，骨骼节点数据可以体现骨骼节点拓扑结构，人体对象基于骨骼节点拓扑结构作出动作，由此，本公开实施例的确定动作类别的方法具有更高的可靠性和鲁棒性。

另外，本公开实施例的确定动作类别的方法，将目标视频数据作为初始数据，对目标视频数据的视频帧数据确定对应的骨骼节点注意力图，通过骨骼节点注意力图可以表征对应视频帧数据的骨骼节点数据的全局依赖关系，通过多个骨骼节点注意力图可以表征目标视频数据的目标骨骼节点的全局依赖关系。通过对骨骼节点注意力图进行至少一个层级的解耦分类，得到的骨骼节点注意力图树结构可以表征骨骼节点数据的局部依赖关系，相比于全局依赖关系，局部依赖关系具有更小的细粒度。根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定的目标骨骼节点数据的目标特征张量可以表征具有局部依赖关系的骨骼节点数据的特征。根据目标特征张量确定的目标视频数据的目标动作类别的准确性更高，在确定细粒度的动作类别的场景下，具有更优的性能。

示例性地，目标骨骼节点数据可以利用图数据结构表征。

例如，目标视频数据包括T个视频帧数据，即目标视频数据包括T帧视频帧数据。目标视频数据可以表征为G＝(V，E，X)。

G表征一个以图数据结构为存储形式的T帧视频帧数据。

V表征目标骨骼节点数据的所有骨骼独立节点的集合，每一个视频帧数据包括N个骨骼独立节点，则

E表征目标骨骼节点数据的所有边的集合，其中，边是指任意两个骨骼独立节点之间的连接关系，

表征存储目标骨骼节点数据的张量，其中C为每个骨骼独立节点的初始特征维度。

图3示意性示出了根据本公开另一实施例的确定动作类别的方法的得到多个骨骼节点注意力图树结构的示意图。

如图3所示，可以利用以下实施例来实现对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构的具体示例。

针对视频帧数据，将相应的骨骼节点注意力图map_i作为参考树结构Tr的根节点N_r，根据参考树结构Tr的深度数据和任意一个父节点的子节点数量，对骨骼节点注意力图map_i进行解耦分类，得到骨骼节点注意力图树结构map_it。

图3示意性示出了参考树结构Tr、针对目标视频数据的第i个视频帧数据，视频帧数据的骨骼节点数据S_i以及骨骼节点注意力图树结构map_it。

其中，参考树结构Tr包括节点Nt_0、节点Nt_1、节点Nt_2、节点Nt_11、节点Nt_12、节点Nt_21以及节点Nt_22计7个节点，参考树结构Tr的深度为3，根节点为节点Nt_0，参考树结构Tr的父节点包括节点Nt_0、节点Nt_1和节点Nt_2。节点Nt_0作为父节点，其子节点包括节点Nt_1和节点Nt_2。节点Nt_1作为父节点，其子节点包括节点Nt_11和节点Nt_12。节点Nt_2作为父节点，其子节点包括节点Nt_21和节点Nt_22。参考树结构Tr的叶子节点包括节点Nt_11、节点Nt_12、节点Nt_21以及节点Nt_22。

骨骼节点数据S_i包括骨骼独立节点Ns_1至骨骼独立节点Ns_11的共计11个骨骼独立节点。

需要说明的是，骨骼节点注意力图树结构map_it不包括根节点，图3示意性示出了骨骼节点注意力图树结构map_it包括：第一层级的子节点map_it1、子节点map_it2、第二层级的子节点map_it11、子节点map_it12、子节点map_it21以及子节点map_it22，其中，子节点map_it11、子节点map_it12、子节点map_it21以及子节点map_it22为骨骼节点注意力图树结构map_it的叶节点。

还需要说明的是，图3示意性示出的骨骼节点数据S_i包括11个骨骼独立节点，相应的骨骼节点注意力图map_i可以利用一个11*11的矩阵表征，受限于图3的大小限制，图3仅示意性示出了3*3矩阵形式的骨骼节点注意力图。

示例性地，参考树结构可以根据具体的应用场景确定。例如，在本公开实施例的确定动作类别的方法应用于乒乓球这一体育项目的动作分析时，由于乒乓球的一些动作与人体对象的上半身的胳膊、下半身的腿部相关，则参考树结构可以设置成如图3所示的结构，其中，父节点Nt_1对应上半身的骨骼节点数据、父节点Nt_2对应下半身的骨骼节点数据；叶节点Nt_11对应上半身的左胳膊的骨骼节点数据，叶节点Nt_12对应上半身的右胳膊的骨骼节点数据；叶节点Nt_21对应下半身的左腿的骨骼节点数据，叶节点Nt_22对应下半身的右腿的骨骼节点数据。

再例如，在本公开实施例的确定动作类别的方法应用于花样滑冰这一体育项目的动作分析时，由于花样滑冰的动作与人体对象的上半身的胳膊、下半身的腿部以及脚部相关，则参考树结构可以在图3所示的基础上，父节点Nt_2可以包括4个子节点，除了上述的节点Nt_21和节点Nt_22之外，另外两个节点可以分别对应下半身的左脚的骨骼节点数据和下半身的右脚的骨骼节点数据。

示例性地，参考树结构还可以根据历史经验得到，例如通过运行试验，得到参考树结构的具体结构。

树结构是一种根据分支关系组织数据元素的一种非线性结构，树结构可以清晰地表征各个数据元素之间的层级关系，骨骼节点数据也是一种非线性的拓扑结构。

需要说明的是，除非另有说明，以下提到的“父节点”和“子节点”分别是指对骨骼节点注意力图进行解耦分类时确定的父节点和子节点，而不是参考树结构的父节点和子节点。

根据本公开实施例的确定动作类别的方法，通过根据参考树结构，对骨骼节点注意力图进行解耦分类，得到的骨骼节点注意力图树结构包括多个子节点，每一个子节点是骨骼节点表征部分骨骼节点注意力图，即表征局部依赖关系，通过骨骼节点注意力图树结构可以根据子节点清晰、直观地表征经过解耦分类得到的具有层级关系的部分骨骼节点注意力图。

图3示意性示出了得到一个骨骼节点注意力图树结构的示例，可以理解，针对目标视频数据的每一个视频帧数据，通过与图3示例的相同的解耦分类方式，可以得到多个骨骼节点注意力图树结构。

图4示意性示出了根据本公开又一实施例的确定动作类别的方法的得到骨骼节点注意力图树结构的示意图。

骨骼节点注意力图树结构的每一个子节点包括至少一个注意力图元素，注意力图元素表征元素索引对应的两个骨骼独立节点之间的相关性。

如图4所示，可以根据以下实施例来实现针对视频帧数据，将相应的骨骼节点注意力图作为参考树结构的根节点，根据参考树结构的深度数据和任意一个父节点的子节点的数量，对骨骼节点注意力图进行解耦分类，得到骨骼节点注意力图树结构的具体示例。

在操作S421，针对任意一个父节点N_i，确定子节点分类概率张量te_p。

在操作S422，根据子节点分类概率张量te_p和父节点N_i，对父节点进行解耦分类，得到骨骼节点注意力图树结构Tr。

可以理解，在参考树结构的深度为m时，需要进行m-1次的解耦分类，第一次解耦分类时将根节点作为父节点，第二次解耦分类时将第一次解耦分类得到的子节点作为父节点，依次类推。

子节点分类概率张量te_p表征父节点N_i的每一个注意力图元素分类至下一层级的每一个子节点的概率数值。

图4示意性示出了父节点N_i可以解耦分类为子节点N_i1至子节点N_ir的共计r个子节点的示例。父节点N_i包括注意力图元素p11至注意力图元素pxy的多个注意力图元素，针对每一个注意力图元素，都可以根据子节点分类概率张量确定该注意力元素解耦分类到相应子节点的概率数值，由此可以准确地对每一个父节点进行解耦，得到相应的子节点。

示例性地，根据本公开又一实施例的确定动作类别的方法，子节点分类概率张量可以包括子节点行分类概率矩阵和子节点列分类概率矩阵。

例如可以根据以下实施例实现针对任意一个父节点，确定子节点分类概率张量的具体示例。

针对任意一个父节点，根据父节点与每一个子节点的行投影矩阵w^Q，得到子节点行分类概率矩阵P^Q；以及根据父节点与每一个子节点的列投影矩阵w^K，得到子节点列分类概率矩阵P^K。

示例性地，可以根据以下公式(1)和(2)分别得到子节点行分类概率矩阵P^Q和子节点列分类概率矩阵P^K。

P^Q＝Softmax(x^tw^Q，axis＝1) (1)

P^K＝Softmax(x^tw^K，axis＝1) (2)

其中，

Softmax(·)是指归一化指数函数，这里的Softmax(·)作用于M的维度，M表征父节点解耦分类后得到的骨骼节点注意力图树结构的叶节点的数量。

可以理解，对于父节点的任意一个注意力图元素，通过Softmax(·)可以得到该注意力图数据解耦分类至每一个子节点的概率数值。如果某些骨骼独立节点影响着多组局部依赖关系，通过这种Softmax(·)这种解耦分类方式可以保留这些骨骼独立节点同时存在多组局部依赖关系中。例如，脊椎部位的骨骼独立节点影响上半身的左胳膊部位、右胳膊部位，脊椎部位的骨骼独立节点可以同时存在于左胳膊部位的局部依赖关系和右胳膊部位的局部依赖关系。

示例性地。可以根据以下公式(3)和(4)实现上述实施例的根据子节点分类概率张量和父节点，对父节点进行解耦分类，得到骨骼节点注意力图树结构的具体示例。以下公式将以父节点为map_i举例说明。

其中，

至此，可以得到针对父节点map_i的子节点

示例性地，还可以根据以下公式(5)和(6)实现上述实施例的根据子节点分类概率张量和父节点，对父节点进行解耦分类，得到骨骼节点注意力图树结构的具体示例。仍以父节点为map_i举例说明。

其中，b＝M，a＝c＝N，M表征父节点解耦分类后得到的骨骼节点注意力图树结构的叶节点的数量，N表征每一个视频帧数据包括的骨骼独立节点的数量。Einsum(·)是指爱因斯坦求和，

至此，可以得到针对父节点map_i的子节点

图5示意性示出了根据本公开又一实施例的确定动作类别的方法的确定目标骨骼节点数据的目标特征张量的示意图。

如图5所示，例如可以利用以下实施例实现根据多个骨骼节点注意力图树结构和目标视频数据的骨骼节点数据，确定目标骨骼节点数据的目标特征张量的具体示例。

在操作S531，根据多个骨骼节点注意力图树结构，确定目标视频数据的目标骨骼节点注意力图树结构Ta。

图5示意性示出了目标视频数据包括T个视频帧数据，可以根据每一个视频帧数据的骨骼节点数据确定相应的骨骼节点注意力图，得到共计T个骨骼节点注意力图，还可以根据每一个骨骼节点注意力图确定相应的骨骼节点注意力图树结构，得到如图5所示的包括骨骼节点注意力图树结构T_1至骨骼节点注意力图树结构T_T的共计T个骨骼节点注意力图树结构。

在操作S532，根据目标骨骼节点注意力图树结构Ta的叶节点，对目标视频数据进行注意力机制运算，得到注意力运算结果张量te_a。

示例性地，可以利用以下公式(7)实现操作S532的具体示例。

公式(7)示意性示出了目标骨骼注意力图树结构Ta的叶节点根据T个骨骼节点注意力图树结构求均值得到的示例。即

需要说明的是，本公开实施例的确定动作类别的方法并不局限于根据T个骨骼节点注意力图树结构求均值得到目标骨骼注意力图树结构的叶节点的示例，例如还可以从目标视频数据的多个视频帧数据中抽取一个关键视频帧，该关键视频帧具有动作类别可分性，则可以将该关键视频帧对应的骨骼节点注意力图树结构的叶节点确定为目标骨骼节点注意力图树结构的叶节点。

还需要说明的是，本公开实施例的确定动作类别的方法例如可以通过深度学习模型实现，即根据深度学习模型执行本公开实施例的确定动作类别的方法的各个操作，深度学习模型可以包括输入层、隐藏层和输出层。

公式(7)中，X_in(·)表征输入层、X_hid(·)表征隐藏层、X_out(·)表征输出层，Linear(·)表征线性层，Multihead(·)表征多头注意力机制。Concat(·)用于连接多个数组，可以理解，每一个叶节点得到的X_in(·)可以利用一个数组表征，M个叶节点得到的数组根据Concat(·)连接，得到X_tree(·)。X_tree(·)表征输入数据X_in与目标骨骼节点注意力图树结构Ta的叶节点进行运算后得到的注意力运算结果张量，输入数据X_in包括目标骨骼节点数据X。

公式(7)中示出的多头注意力机制仅为本公开实施例的确定动作类别的方法的一种示例，例如还可以利用单头注意力机制。

示例性地，本公开实施例的确定动作类别的方法，可以将双曲正切函数(Tanh)作为注意力机制的激活函数。双曲正切函数的取值范围为(-1，1)，由于可以取负值，因此在体现差异性方面的性能较好。

在一些动作之间的差异较小的应用场景下，需要通过动作之间较小的差异准别识别不同的动作，此时不同动作特征之间的差异性尤为重要。本公开实施例的确定动作类别的方法，通过将双曲正切函数作为注意力机制的激活函数，可以更好地体现动作特征之间的差异性，确定动作类别的准确性更高。

在操作S533，根据注意力运算结果张量te_a，确定目标骨骼节点数据的特征张量te。

在操作S534，根据特征张量te，确定目标特征张量te_t。

本公开实施例的确定动作类别的方法，根据目标骨骼节点注意力图树结构的叶节点，对目标视频数据进行注意力机制运算，得到的注意力运算结果张量结合了注意力机制与目标骨骼节点注意力图树结构，计算量复杂性小、并行性高，还适应局部依赖关系。基于注意力运算结果张量确定的目标特征张量具有更优的表征性。本公开实施例的确定动作类别的方法在实际应用场景下具有更佳的性能。

根据本公开实施例又一实施例的确定动作类别的方法，目标骨骼节点数据可以利用图数据结构表征，骨骼独立节点利用顶点表征。

示例性地，可以利用以下实施例实现根据目标骨骼节点注意力图树结构的叶节点，对目标视频数据进行注意力机制运算，得到注意力运算结果张量的具体示例。

根据目标骨骼节点注意力图树结构的叶节点和参数化邻接矩阵，确定目标注意力图树结构；以及根据目标注意力图树结构，对目标视频数据进行注意力机制运算，得到注意力运算结果张量。

参数化邻接矩阵通过学习得到，参数化邻接矩阵表征任意两个顶点之间的关系。示例性地，参数化邻接矩阵例如可以表征任意两个顶点之间的连接关系。

在本公开实施例的确定动作类别的方法根据目标骨骼节点注意力图树结构的叶节点和参数化邻接矩阵，确定目标注意力图树结构时，可以根据以下公式(8)得到X_tree。

在利用深度学习模型执行本公开实施例的确定动作类别的方法时，可以通过学习得到的参数化邻接矩阵对根据骨骼注意力图树结构得到的目标骨骼节点注意力树结构进行适应性地补充，提高深度学习模型的拟合能力和泛化能力，该参数化邻接矩阵还可以与骨骼节点注意力图树结构共同确定一个更加准确的目标骨骼节点注意力图树结构。

还需要说明的是，例如可以利用以下公式(9)来实现本公开实施例的确定动作类别的方法中确定目标视频数据中视频帧数据的骨骼节点注意力图map_i的具体示例。

其中，w_q和w_k分别表征两个参数化投影矩阵，w_q和w_k也可以通过学习得到。X表征目标骨骼节点数据。X^T表征X的转置。

图6A和图6B示意性示出了根据本公开又一实施例的确定动作类别的方法的根据特征张量，确定目标特征张量的示意图。

如图6A所示，在目标骨骼节点数据X表征单个动作类别时，将特征张量te重新作为目标视频数据的目标骨骼节点数据X，直到重复次数i达到第一阈值Th1，得到目标特征张量te_t。

在本公开实施例的确定动作类别的方法根据深度学习模型执行时，例如可以将执行根据目标骨骼节点数据，确定特征张量的模块命名为树结构注意力机制模块，可以通过串行连接第一阈值个树结构注意力机制模块实现上述的将特征张量te重新作为目标视频数据的目标骨骼节点数据X，直到重复次数i达到第一阈值Th1，得到目标特征张量te_t的具体示例。

如图6B所示，在目标骨骼节点数据X表征多个动作类别时，将特征张量te重新作为目标视频数据的骨骼节点数据，直到重复次数达到第二阈值，得到目标特征张量，其中，第一阈值大于第二阈值。

与目标骨骼节点数据X表征单个动作类别类似地，可以通过串行连接第二阈值个树结构注意力机制模块实现上述的将特征张量作为目标视频数据的骨骼节点数据，直到重复次数达到第二阈值，得到目标特征张量的具体示例。

目标骨骼节点注意力图树结构是根据多个骨骼节点注意力图树结构得到的，骨骼节点注意力图树结构可以表征视频帧数据的注意力分布，目标骨骼节点注意力图树结构可以表征目标视频数据的注意力分布。在目标视频数据的目标骨骼节点数据表征单个动作类别时，相应的注意力分布比较固定。

例如，目标视频数据的目标骨骼节点数据表征某一个体育项目的单个动作，判断该动作时主要根据脚部和腿部的局部动作，则目标骨骼节点注意力图树结构表征的注意力分布将在相应的脚部和腿部的局部依赖关系占有数值较大的权重。

而在目标视频数据的目标骨骼节点数据表征多个动作类别时，各个动作类别对应的注意力分布具有较大差别。

例如，目标视频数据的目标骨骼节点数据表征某一体育项目的两个动作，例如动作Mo1和动作Mo2，判断动作Mo1时主要根据脚部和腿部的局部动作，则目标骨骼节点注意力图树结构表征的注意力分布将在相应的脚部和腿部的局部依赖关系占有数值较大的权重，判断动作Mo2时主要根据左胳膊和右胳膊的局部动作，则目标骨骼节点注意力图树结构表征的注意力分布将在相应的左胳膊和右胳膊的局部依赖关系占有数值较大的权重。

在目标骨骼节点数据表征单个动作类别时，相应的目标视频数据的视频帧数据较少，目标骨骼节点数据也相应较少，本公开实施例的确定动作类别的方法，可以利用较少的输入数据，通过相对更多次的根据目标骨骼节点数据，确定特征张量的处理，得到的目标特征张量具有更好的表征性。

与目标骨骼节点数据表征单个动作类别不同，在目标骨骼节点数据表征多个动作类别时，由于多个动作类别之间的差异较大，而目标骨骼节点注意力图树结构表征目标视频数据的局部注意力分布，为了避免因多次进行根据目标骨骼节点数据，确定特征张量的处理导致目标特征张量表征多个动作类比之间的差异性的性能降低，本公开实施例的确定动作类别的方法将第二阈值设置为小于第一阈值。

示例性地，第一阈值可以设置为9，第二阈值可以设置为1或2。

由此，本公开实施例的确定动作类别的方法根据目标骨骼节点数据表征单个动作类别和表征多个动作类别时的差异，对相应的目标骨骼节点数据进行差异化处理，在相应的场景下，均可以得到具有更好的表征性的目标特征张量。后续根据目标特征张量确定的目标动作类别的准确性更高。

图6A和图6B示意性示出了根据本公开又一实施例的根据目标特征张量，确定目标视频数据的目标动作类别的示意图。

如图6A所示，在目标骨骼节点数据X表征单个动作类别时，对目标特征张量te_t进行全局平均池化层处理和全连接层处理，得到目标视频数据的目标动作类别Cx。

示例性地，如图6A所示，全局平均池化层处理可以根据全局平均池化层GAP实现，全连接层处理可以根据全连接层FC实现。

在目标骨骼节点数据X表征单个动作类别时，特征张量重新作为目标视频数据的目标骨骼节点数据，直到重复次数达到第一阈值，得到的目标特征张量的维度相对较高，根据全连接层直接对目标特征张量进行二维向量转化时，参数数值较大，本公开实施例的确定动作类别的方式通过全局平均池化处理可以对目标特征张量进行降维，同时根据目标特征张量进行一次分类，具有更高的分类准确性和更优的性能。

如图6B所示，在目标骨骼节点数据X表征多个动作类别时，对目标特征张量te_t进行多阶段时序卷积网络处理处理，得到目标视频数据的多个目标动作类别Cx。

如图6B所示，多阶段时序卷积网络可以包括f个时序卷积网络TCN和f个全连接层FC其中，f取值大于等于2的正整数，一个时序卷积网络TCN与一个全连接层FC可以形成一个阶段的时序卷积网络，多个时序卷积层和多个全连接层可以形成多阶段时序卷积网络。f例如可以取值为4，图6B示意性示出了两个阶段的时序卷积网络的示例。

每一个阶段的时序卷积网络相当于一个分类器，由此形成多个串联的分类器，下一阶段的分类基于上一阶段的结果。

本公开实施例的确定动作类别的方法，在目标骨骼节点数据X表征多个动作类别时，例如可以确定每一视频帧数据的骨骼节点数据的动作类别，进而根据每一视频帧数据的动作类别确定目标骨骼节点数据的多个目标动作类别。

通过多阶段时序卷积网络处理，可以逐步在时间维度上细化动作分类的结果，有助于确定每一帧视频帧数据的骨骼节点数据的动作类别，进而可以准确确定目标骨骼节点数据的多个目标动作类别。

时序卷积网络TCN基于膨胀因果卷积，结合了时序影响因素，适用于时序相关的应用场景。确定目标视频数据显示的人体对象作出的动作的类别与目标视频数据的视频帧数据的时序具有相关性，本公开实施例通过时序卷积层可以使得执行本公开实施例的确定动作类别的方法的深度学习模型具有时序特性，适应动作类别与目标视频数据的视频帧数据的时序具有相关性的特点。

由此，本公开实施例的确定动作类别的方法根据目标骨骼节点数据表征单个动作类别和表征多个动作类别时的差异，对相应的目标特征张量进行差异化处理，确定的目标动作类别的具有更小的细粒度和更高的准确性。相应的深度学习模型的具有更优的性能。

图7示意性示出了根据本公开一实施例的确定动作类别的装置的框图。

如图7所示，本公开实施例的确定动作类别的装置700例如包括骨骼节点注意力图确定模块710、骨骼节点注意力图树结构确定模块720、目标特征张量确定模块730以及目标动作类别确定模块740。

骨骼节点注意力图确定模块710，用于确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图，其中，视频帧数据包括骨骼节点数据，骨骼节点数据包括多个骨骼独立节点，骨骼节点注意力图表征视频帧数据的任意两个骨骼独立节点之间相关性的注意力分布。

骨骼节点注意力图树结构确定模块720，用于对骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构。

目标特征张量确定模块730，用于根据多个骨骼节点注意力图树结构和目标视频数据的目标骨骼节点数据，确定目标骨骼节点数据的目标特征张量，其中，目标骨骼节点数据是根据骨骼节点数据得到的。

目标动作类别确定模块740，用于根据目标特征张量，确定目标视频数据的目标动作类别。

根据本公开实施例，骨骼节点注意力图树结构确定模块包括：骨骼节点注意力图树结构确定子模块。

骨骼节点注意力图树结构确定子模块，用于针对视频帧数据，将相应的骨骼节点注意力图作为参考树结构的根节点，根据参考树结构的深度数据和任意一个父节点的子节点数量，对骨骼节点注意力图进行解耦分类，得到骨骼节点注意力图树结构。

根据本公开实施例，骨骼节点注意力图树结构的每一个子节点包括至少一个注意力图元素，注意力图元素表征元素索引对应的两个骨骼独立节点之间的相关性。骨骼节点注意力图树结构确定子模块包括：子节点分类概率张量确定单元以及骨骼节点注意力图树结构确定单元。

子节点分类概率张量确定单元，用于针对任意一个父节点，确定子节点分类概率张量，其中，子节点分类概率张量表征父节点的每一个注意力图元素分类至每一个子节点的概率数值。

骨骼节点注意力图树结构确定单元，用于根据子节点分类概率张量和父节点，对父节点进行解耦分类，得到骨骼节点注意力图树结构。

根据本公开实施例，子节点分类概率张量包括子节点行分类概率矩阵和子节点列分类概率矩阵，子节点分类概率张量确定单元包括：子节点行分类概率矩阵确定子单元以及子节点列分类概率矩阵确定子单元。

子节点行分类概率矩阵确定子单元，用于针对任意一个父节点，根据父节点与每一个子节点的行投影矩阵，得到子节点行分类概率矩阵。

子节点列分类概率矩阵确定子单元，用于根据父节点与每一个子节点的列投影矩阵，得到子节点列分类概率矩阵。

根据本公开实施例，目标特征张量确定模块包括：目标骨骼节点注意力图树结构确定子模块、注意力运算结果张量确定子模块、特征张量确定子模块以及目标特征张量确定子模块。

目标骨骼节点注意力图树结构确定子模块，用于根据多个骨骼节点注意力图树结构，确定目标视频数据的目标骨骼节点注意力图树结构。

注意力运算结果张量确定子模块，用于根据目标骨骼节点注意力图树结构的叶节点，对目标骨骼节点数据进行注意力机制运算，得到注意力运算结果张量。

特征张量确定子模块，用于根据注意力运算结果张量，确定目标骨骼节点数据的特征张量。

目标特征张量确定子模块，用于根据特征张量，确定目标特征张量。

根据本公开实施例，目标骨骼节点数据利用图数据结构表征，骨骼独立节点利用顶点表征。注意力运算结果张量确定子模块包括：目标注意力图树结构确定单元以及注意力运算结果张量确定单元。

目标注意力图树结构确定单元，用于根据目标骨骼节点注意力图树结构的叶节点和参数化邻接矩阵，确定目标注意力图树结构，其中，参数化邻接矩阵通过学习得到，参数化邻接矩阵表征任意两个顶点之间的关系。

注意力运算结果张量确定单元，用于根据目标注意力图树结构，对目标视频数据进行注意力机制运算，得到注意力运算结果张量。

根据本公开实施例，目标特征张量确定子模块包括：目标特征张量第一确定单元以及目标特征张量第二确定单元。

目标特征张量第一确定单元，用于在目标骨骼节点数据表征单个动作类别时，将特征张量重新作为目标视频数据的目标骨骼节点数据，直到重复次数达到第一阈值，得到目标特征张量。

目标特征张量第二确定单元，用于在目标骨骼节点数据表征多个动作类别时，将特征张量重新作为目标视频数据的骨骼节点数据，直到重复次数达到第二阈值，得到目标特征张量，其中，第一阈值大于第二阈值。

根据本公开实施例，目标动作类别确定模块包括：目标动作类别第一确定子模块以及目标动作类别第二确定子模块。

目标动作类别第一确定子模块，用于在目标骨骼节点数据表征单个动作类别时，对目标特征张量进行全局平均池化层处理和全连接层处理，得到目标视频数据的目标动作类别。

目标动作类别第二确定子模块，用于在目标骨骼节点数据表征多个动作类别时，对目标特征张量进行多阶段时序卷积网络处理，得到目标视频数据的多个目标动作类别。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如确定动作类别的方法。例如，在一些实施例中，确定动作类别的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的确定动作类别的方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定动作类别的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定动作类别的方法，包括：

确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图，其中，所述视频帧数据包括骨骼节点数据，所述骨骼节点数据包括多个骨骼独立节点，所述骨骼节点注意力图表征所述视频帧数据的任意两个所述骨骼独立节点之间相关性的注意力分布；

对所述骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构；

根据所述多个骨骼节点注意力图树结构和所述目标视频数据的目标骨骼节点数据，确定所述目标骨骼节点数据的目标特征张量，其中，所述目标骨骼节点数据是根据所述骨骼节点数据得到的；以及

根据所述目标特征张量，确定所述目标视频数据的目标动作类别。

2.根据权利要求1所述的方法，其中，所述对所述骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构包括：

针对所述视频帧数据，将相应的所述骨骼节点注意力图作为参考树结构的根节点，根据所述参考树结构的深度数据和任意一个父节点的子节点数量，对所述骨骼节点注意力图进行解耦分类，得到所述骨骼节点注意力图树结构。

3.根据权利要求2所述的方法，其中，所述骨骼节点注意力图树结构的每一个子节点包括至少一个注意力图元素，所述注意力图元素表征元素索引对应的两个所述骨骼独立节点之间的相关性；所述针对所述视频帧数据，将相应的所述骨骼节点注意力图作为参考树结构的根节点，根据所述参考树结构的深度数据和任意一个父节点的子节点的数量，对所述骨骼节点注意力图进行解耦分类，得到所述骨骼节点注意力图树结构包括：

针对任意一个父节点，确定子节点分类概率张量，其中，所述子节点分类概率张量表征所述父节点的每一个注意力图元素分类至每一个所述子节点的概率数值；以及

根据所述子节点分类概率张量和所述父节点，对所述父节点进行解耦分类，得到所述骨骼节点注意力图树结构。

4.根据权利要求3所述的方法，其中，所述子节点分类概率张量包括子节点行分类概率矩阵和子节点列分类概率矩阵，所述针对任意一个父节点，确定子节点分类概率张量包括：

针对任意一个父节点，根据所述父节点与每一个子节点的行投影矩阵，得到所述子节点行分类概率矩阵；以及

根据所述父节点与每一个子节点的列投影矩阵，得到所述子节点列分类概率矩阵。

5.根据权利要求1-4中任一项所述的方法，其中，所述根据所述多个骨骼节点注意力图树结构和所述目标视频数据的所述骨骼节点数据，确定所述目标骨骼节点数据的目标特征张量包括：

根据所述多个骨骼节点注意力图树结构，确定所述目标视频数据的目标骨骼节点注意力图树结构；

根据所述目标骨骼节点注意力图树结构的叶节点，对所述目标骨骼节点数据进行注意力机制运算，得到注意力运算结果张量；

根据所述注意力运算结果张量，确定所述目标骨骼节点数据的特征张量；以及

根据所述特征张量，确定所述目标特征张量。

6.根据权利要求5所述的方法，其中，所述目标骨骼节点数据利用图数据结构表征，所述骨骼独立节点利用顶点表征；所述根据所述目标骨骼节点注意力图树结构，对所述目标骨骼节点数据进行注意力机制运算，得到注意力运算结果张量包括：

根据所述目标骨骼节点注意力图树结构的叶节点和参数化邻接矩阵，确定目标注意力图树结构，其中，所述参数化邻接矩阵通过学习得到，所述参数化邻接矩阵表征任意两个所述顶点之间的关系；以及

根据所述目标注意力图树结构，对所述目标视频数据进行注意力机制运算，得到所述注意力运算结果张量。

7.根据权利要求5所述的方法，其中，所述根据所述特征张量，确定所述目标特征张量包括：

在所述目标骨骼节点数据表征单个动作类别时，将所述特征张量重新作为所述目标视频数据的所述目标骨骼节点数据，直到重复次数达到第一阈值，得到所述目标特征张量；

在所述目标骨骼节点数据表征多个动作类别时，将所述特征张量重新作为所述目标视频数据的所述骨骼节点数据，直到重复次数达到第二阈值，得到所述目标特征张量，其中，所述第一阈值大于所述第二阈值。

8.根据权利要求1-4中任一项所述的方法，其中，所述根据所述目标特征张量，确定所述目标视频数据的目标动作类别包括：

在所述目标骨骼节点数据表征单个动作类别时，对所述目标特征张量进行全局平均池化层处理和全连接层处理，得到所述目标视频数据的目标动作类别；

在所述目标骨骼节点数据表征多个动作类别时，对所述目标特征张量进行多阶段时序卷积网络处理，得到所述目标视频数据的多个目标动作类别。

9.一种确定动作类别的装置，包括：

骨骼节点注意力图确定模块，用于确定目标视频数据中视频帧数据的骨骼节点注意力图，得到多个骨骼节点注意力图，其中，所述视频帧数据包括骨骼节点数据，所述骨骼节点数据包括多个骨骼独立节点，所述骨骼节点注意力图表征所述视频帧数据的任意两个所述骨骼独立节点之间相关性的注意力分布；

骨骼节点注意力图树结构确定模块，用于对所述骨骼节点注意力图进行至少一个层级的解耦分类，得到多个骨骼节点注意力图树结构；

目标特征张量确定模块，用于根据所述多个骨骼节点注意力图树结构和所述目标视频数据的目标骨骼节点数据，确定所述目标骨骼节点数据的目标特征张量，其中，所述目标骨骼节点数据是根据所述骨骼节点数据得到的；以及

目标动作类别确定模块，用于根据所述目标特征张量，确定所述目标视频数据的目标动作类别。

10.根据权利要求9所述的装置，其中，所述骨骼节点注意力图树结构确定模块包括：

骨骼节点注意力图树结构确定子模块，用于针对所述视频帧数据，将相应的所述骨骼节点注意力图作为参考树结构的根节点，根据所述参考树结构的深度数据和任意一个父节点的子节点数量，对所述骨骼节点注意力图进行解耦分类，得到所述骨骼节点注意力图树结构。

11.根据权利要求10所述的装置，其中，所述骨骼节点注意力图树结构的每一个子节点包括至少一个注意力图元素，所述注意力图元素表征元素索引对应的两个所述骨骼独立节点之间的相关性；所述骨骼节点注意力图树结构确定子模块包括：

子节点分类概率张量确定单元，用于针对任意一个父节点，确定子节点分类概率张量，其中，所述子节点分类概率张量表征所述父节点的每一个注意力图元素分类至每一个所述子节点的概率数值；

骨骼节点注意力图树结构确定单元，用于根据所述子节点分类概率张量和所述父节点，对所述父节点进行解耦分类，得到所述骨骼节点注意力图树结构。

12.根据权利要求11所述的装置，其中，所述子节点分类概率张量包括子节点行分类概率矩阵和子节点列分类概率矩阵，所述子节点分类概率张量确定单元包括：

子节点行分类概率矩阵确定子单元，用于针对任意一个父节点，根据所述父节点与每一个子节点的行投影矩阵，得到所述子节点行分类概率矩阵；以及

子节点列分类概率矩阵确定子单元，用于根据所述父节点与每一个子节点的列投影矩阵，得到所述子节点列分类概率矩阵。

13.根据权利要求9-12中任一项所述的装置，其中，所述目标特征张量确定模块包括：

目标骨骼节点注意力图树结构确定子模块，用于根据所述多个骨骼节点注意力图树结构，确定所述目标视频数据的目标骨骼节点注意力图树结构；

注意力运算结果张量确定子模块，用于根据所述目标骨骼节点注意力图树结构的叶节点，对所述目标骨骼节点数据进行注意力机制运算，得到注意力运算结果张量；

特征张量确定子模块，用于根据所述注意力运算结果张量，确定所述目标骨骼节点数据的特征张量；以及

目标特征张量确定子模块，用于根据所述特征张量，确定所述目标特征张量。

14.根据权利要求13所述的装置，其中，所述目标骨骼节点数据利用图数据结构表征，所述骨骼独立节点利用顶点表征；所述注意力运算结果张量确定子模块包括：

目标注意力图树结构确定单元，用于根据所述目标骨骼节点注意力图树结构的叶节点和参数化邻接矩阵，确定目标注意力图树结构，其中，所述参数化邻接矩阵通过学习得到，所述参数化邻接矩阵表征任意两个所述顶点之间的关系；以及

注意力运算结果张量确定单元，用于根据所述目标注意力图树结构，对所述目标视频数据进行注意力机制运算，得到所述注意力运算结果张量。

15.根据权利要求13所述的装置，其中，所述目标特征张量确定子模块包括：

目标特征张量第一确定单元，用于在所述目标骨骼节点数据表征单个动作类别时，将所述特征张量重新作为所述目标视频数据的所述目标骨骼节点数据，直到重复次数达到第一阈值，得到所述目标特征张量；以及

目标特征张量第二确定单元，用于在所述目标骨骼节点数据表征多个动作类别时，将所述特征张量重新作为所述目标视频数据的所述骨骼节点数据，直到重复次数达到第二阈值，得到所述目标特征张量，其中，所述第一阈值大于所述第二阈值。

16.根据权利要求9-12中任一项所述的装置，其中，所述目标动作类别确定模块包括：

目标动作类别第一确定子模块，用于在所述目标骨骼节点数据表征单个动作类别时，对所述目标特征张量进行全局平均池化层处理和全连接层处理，得到所述目标视频数据的目标动作类别；

目标动作类别第二确定子模块，用于在所述目标骨骼节点数据表征多个动作类别时，对所述目标特征张量进行多阶段时序卷积网络处理，得到所述目标视频数据的多个目标动作类别。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。