CN112528811A

CN112528811A - 行为识别方法和装置

Info

Publication number: CN112528811A
Application number: CN202011406516.8A
Authority: CN
Inventors: 杨凯
Original assignee: CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-19

Abstract

本发明公开了一种行为识别方法和装置，涉及计算机技术领域。该行为识别方法的一具体实施方式包括：将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；根据划分得到的多跳子图数据，确定对象的行为特征；根据预设时间范围内待识别对象的每帧骨骼序列数据，确定行为特征对应的时间特征；根据对象的行为特征以及行为特征对应的时间特征，识别得到对象的行为分类结果。该实施方式可以提取不同尺度的人体部件信息，可以提升空间域信息的多样性，可以扩展空间图卷积网络的感受野。

Description

行为识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种行为识别方法和装置。

背景技术

在基于骨骼序列的行为识别技术领域中，目前已有以下几种主流技术方案：

(1)基于手工提取特征的行为识别；

采用一些人工制定的规则来完成行为识别。例如：根据人体重心相关的骨骼关键点持续降低的规则，来识别人体发生了摔倒。

(2)基于循环神经网络(RNN/LSTM)的骨架序列行为识别方法；

人体识别的骨骼序列可以表达为时间序列的骨骼坐标数据帧。该方式采用循环神经网络RNN/LSTM，在大规模行为识别训练数据集上对网络进行训练，完成分类识别工作。

虽然以上两种现有方式均可以完成行为识别工作。但是以上两种现有方式均无法提取不同尺度的人体部件信息，无法提升空间域信息的多样性，无法扩展空间图卷积网络的感受野。

发明内容

有鉴于此，本发明实施例提供了一种行为识别方法和装置，能够解决现有方式无法提取不同尺度的人体部件信息的问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种行为识别方法。

本发明实施例的行为识别方法包括：

将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；

根据划分得到的多跳子图数据，确定所述对象的行为特征；

根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征；

根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

可选地，所述子图数据中至少包括一个骨骼关键点，多跳子图数据中的骨骼关键点之间存在连接关系，且多跳子图数据中的骨骼关键点之间的连接信息用于描述多个关节构成的所述对象的整体信息。

可选地，将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据的步骤之后，所述方法还包括：

在每跳的所述子图数据中划分至少一个邻域，一个领域中的骨骼关键点存在连接关系；

将所述子图数据中每个骨骼关键点i的领域内骨骼关键点划分为K个子集，其中K≥1；

根据骨骼关键点与躯干中心的位置关系，将K个子集划分为K跳离心节点集和K跳向心节点集；

然后执行根据K跳离心节点集和K跳向心节点集，确定所述对象的行为特征的步骤。

可选地，在每跳的所述子图数据中划分至少一个邻域包括：

按照骨骼关键点的连接关系，在每跳的所述子图数据中划分网格，以形成至少一个邻域，每个网格对应为一个领域，每个领域中的骨骼关键点存在连接关系。

可选地，根据划分得到的多跳子图数据，确定所述对象的行为特征包括：

根据图卷积神经网络，从划分得到的多跳子图数据中提取所述对象的行为特征。

可选地，所述图卷积神经网络至少包括：输入层、连接层和卷积层，所述子图数据的跳数为K；

根据图卷积神经网络，从划分得到的多跳子图数据中提取所述对象的行为特征包括：

将K跳所述子图数据通过输入层分别输入至K个图卷积模块，通过图卷积模块分别基于K跳所述子图数据的连接信息进行空间卷积特征提取；

将提取得到的空间卷积特征经过连接层和卷积层，以完成所述对象的行为特征的提取过程。

可选地，根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征包括：

当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据有变化时，则确定当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据的变化强度；

根据当前帧的骨骼序列数据以及所述变化强度，确定所述行为特征对应的时间特征。

可选地，根据当前帧的骨骼序列数据以及所述变化强度，确定所述行为特征对应的时间特征包括：

将当前帧的骨骼序列数据以及所述变化强度进行深度学习，以确定时间注意力加权参数，其中所述注意力加权参数用于表示变化强度；

将所述时间注意力加权参数加权到输出特征中，以确定所述行为特征对应的时间特征。

可选地，将所述时间注意力加权参数加权到输出特征中，以确定所述行为特征对应的时间特征包括：

将所述时间注意力加权参数通过设置有不同时间窗口的时域注意力LSTM子模型加权到输出特征中，并将不同时间窗口的LSTM子模型的输出特征进行合并，以确定所述行为特征对应的时间特征。

可选地，在将待识别对象在预设时间范围内的骨骼序列数据划分为多跳的子图数据的步骤之前，所述方法还包括：

在预设时间范围内按照预设间隔获取每帧待识别对象的图像；

采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据。

可选地，采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据的步骤之后，所述方法还包括：

将预设时间范围内待识别对象的每帧骨骼序列数据变换分别生成第一数据块和第二数据块，所述第一数据块的维度为T×V×C，所述第二数据块的维度为T×C×V，其中T，V和C均为大于或等于1的整数；

将所述第一数据块和所述第二数据块的V维度和C维度相乘，生成维度为V×V的T个邻接矩阵序列，所述邻接矩阵序列用于表示骨骼序列数据中骨骼关键点之间的连接强度。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种行为识别装置。

本发明实施例的行为识别装置包括：

划分模块，用于将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；

第一确定模块，用于根据划分得到的多跳子图数据，确定所述对象的行为特征；

第二确定模块，用于根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征；

识别模块，用于根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

本发明实施例的行为识别装置包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种计算机可读介质。

本发明实施例的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：

该实施方式为一种时空多尺度图卷积的方式，可以提升基于骨骼序列的行为识别性能。与现有行为识别方法相比，主要具有以下优点：

1)在空间域，通过对骨骼关键点的多跳划分，考虑了不同尺度的连接信息。使得模型可以自动提取不同尺度的人体部件信息，提升空间域信息的多样性，扩展空间图卷积网络的感受野。

2)在时间域，通过设计多尺度时间窗口及多特征注意力机制模块，提升了网络在时间域捕获不同尺度时间动态特征的能力。

3)结合时间和空间设计的模块，提升了网络的综合行为识别能力，设计了新的损失目标函数，优化了网络的训练过程。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例的从图像提取得到骨骼序列数据的示意图；

图2是本发明第一实施例的行为识别方法的流程示意图；

图3是本发明基于训练数据的骨骼序列数据图生成过程的示意图；

图4是本发明行为识别过程的示意图；

图5a是本发明实施例的基于骨骼序列的多紧邻划分(1跳)示意图；

图5b是本发明实施例的基于骨骼序列的划分后的多紧邻子图数据(1跳)示意图；

图5c是本发明实施例的基于骨骼序列的多紧邻划分(2跳)示意图；

图5d是本发明实施例的基于骨骼序列的划分后的多紧邻子图(2跳)示意图；

图6是本发明实施例的行为特征提取过程的流程示意图；

图7是本发明实施例的时间特征提取过程的示意图；

图8是本发明实施例的时间特征提取过程的示意图；

图9是本发明第二实施例的行为识别方法的流程示意图；

图10是本发明实施例的行为识别装置的模块示意图；

图11是本发明实施例可以应用于其中的示例性系统架构图；

图12是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

接下来对现有行为识别方式所存在的缺点进行详细说明。

1.基于手工提取特征的骨骼序列行为识别方法，该方式的主要缺点是：

(1)在不同视角下，同一规则很难适用。例如：在不同视角获取的骨骼关键点数据可能会有差别，造成误判。

(2)在识别不同行为时，需要制定很复杂的规则，才可以区分相近的动作。规则的制定过程复杂，很多时候很难制定明确的判定规则。

2.基于循环神经网络(RNN/LSTM)的骨骼序列行为识别方法，该方式的主要缺点是：

该方式基于机器学习方法，具有泛化能力强、识别种类多以及准确率相对较高等特性。不过该方式也有明显的不足，具体表现为：人体的骨骼节点存在关节连接结构和信息，在RNN/LSTM中，数据被直接当做时间序列的向量处理，没有考虑骨骼节点的连接结构信息。

除此之外，还可以基于图卷积进行骨架序列行为的识别。如图1所示，人体骨骼关键点的连接关系自然形成了类似图的结构，因此采用图数据对人体的骨骼关键点进行描述可以更加完整的表述人体的行为信息。人体骨骼由关节和连接关节的骨骼构成。它们分别对应到图数据结构的顶点和边。因此人体骨骼数据可以描述为无向图G＝(V,E)，其中V代表顶点集，即所有骨骼关键点。E代表“边集”，即骨骼关节连接的边(骨骼)构成的集合。图卷积过程是将通用的二维卷积扩展到图数据领域，考虑到了人体关节的连接结构，因此在卷积过程中可以提取更多信息，取得更好的性能。

虽然利用图数据可以完成对骨骼序列数据的描述，描述过程考虑了关节的连接信息。通过图卷积的方式来构建学习网络，较好的提升了模型性能。但是现有的基于骨骼序列的行为识别方法，也存在很多不足，具体体现为：

(1)没有考虑到多尺度的空间连接关系。

在图数据的表示过程中，未考虑多尺度的非直接节点连接关系：即关节主节点和多跳的领近节点的关系。因此很难提取多跳临近节点的连接数据信息。这些连接数据信息可以扩展图卷积过程的感受野，提升模型性能。另外多跳骨骼关键点(关节节点)之间的连接信息，描述了多个关节构成的人体部件(胳膊，腿，躯干等)的整体信息。这些对于行为识别很有意义的整体部件信息在当前的骨骼图卷积过程中未加利用。

(2)没有考虑到多尺度的时间关系。

在基于图卷积的骨骼序列行为识别方法中，图的描述是基于空间域进行。在骨骼序列各帧数据构成的时间序列中，没有考虑多尺度的时间信息。实际在人们的行为中，有的时段信息是关键的，而有的时段的信息却对行为分类没有帮助。例如：在喝水的过程中，把水杯送到嘴边的时间段所含有的信息是关键信息，其它时段有很多冗余信息。现有图卷积行为识别方法并未有效提取关键尺度的时间维度信息。

为了解决现有方式所存在的问题，本发明实施例提供了一种行为识别方法，该行为识别方法是一种多尺度时空图卷积的骨骼序列行为识别方法。该方法基于骨骼序列数据完成行为识别，解决了利用视频直接识别算法复杂度大的问题。基于图数据和图卷积来搭建神经网络，解决了单纯采用循环神经网络(RNN/LSTM)方式进行骨骼行为识别中，骨骼关节连接信息缺失的问题。该行为识别方法提出了多空间尺度的多近邻图卷积模块和多时间尺度的注意力LSTM模块，分别解决了多尺度空间和时间信息提取的问题。该行为识别方法设计了一种多尺度时空图卷积网络来提升骨骼序列行为识别的准确率。为了提升新网络的训练收敛速度，该行为识别方法提出了一种新的训练损失函数。经过在大型公开行为识别数据集上的实验测试，证明本方法比现有骨骼序列行为识别方法有明显的性能提升。

具体地，图2是本发明第一实施例的行为识别方法的流程示意图，如图2所示，该行为识别方法可以包括如下的步骤S201至步骤S204。

步骤S201：将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；其中多跳子图数据中的骨骼关键点之间存在连接关系，且多跳子图数据中的骨骼关键点之间的连接信息用于描述多个关节构成的人体部件的整体信息。

在步骤S201中，所述对象可以为动物或人等。所述对象的骨骼序列数据是从所述对象的动作数据的图像中提取得到的。其中所述预设时间范围内待识别对象的每帧骨骼序列数据是按照预设间隔从待识别对象的图像中提取得到的。每帧骨骼序列数据中至少包括一个骨骼关键点，不同跳数的子图数据之间通过跳接方式连接。

为了使图卷积能在更宽的并行方式下运行，解决图卷积网络在加深过程中遇到的过拟合问题，可以在子图数据上形成类似网格数据的不同大小邻域。即在步骤S201之后，所述方法还包括：在每跳的所述子图数据中划分至少一个邻域，一个领域中的骨骼关键点存在连接关系；将所述子图数据中每个骨骼关键点i的领域内骨骼关键点划分为K个子集，其中K≥1；根据骨骼关键点与躯干中心的位置关系，将K个子集划分为K跳离心节点集和K跳向心节点集；然后执行根据K跳离心节点集和K跳向心节点集，确定所述对象的行为特征的步骤。

为了得到骨骼序列数据，在步骤S201之前，所述方法还包括：首先在预设时间范围内按照预设间隔获取每帧待识别对象的图像；然后采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据。其中深度摄像头可以为Kinect(Kinect是一种3D体感摄影机)或者Real sensor(真实传感器)等。姿态估计算法可以为openpose算法(openpose算法是一种姿态估计算法)。从视频中提取人体的关节坐标信息可大大降低了需要处理的数据量，也降低了对计算资源的需求。因此基于骨骼序列的行为识别算法，往往具有更好的实时性能。基于人体骨骼关键点的表达方式，排除了大量原始视频中的冗余信息，有利于提升行为识别的准确率。

参见图3，为了生成骨骼连接图，可以将预设时间范围内待识别对象的每帧骨骼序列数据变换分别生成第一数据块和第二数据块，所述第一数据块的维度为T×V×C，所述第二数据块的维度为T×C×V，其中T，V和C均为大于或等于1的整数；将所述第一数据块和所述第二数据块的V维度和C维度相乘，生成维度为V×V的T个邻接矩阵序列，所述邻接矩阵序列用于表示骨骼序列数据中骨骼关键点之间的连接强度。

步骤S202：根据划分得到的多跳子图数据，确定所述对象的行为特征。

在步骤S202中，根据图卷积神经网络，从划分得到的多跳子图数据中提取所述对象的行为特征。其中所述图卷积神经网络至少包括：输入层、连接层和卷积层，所述子图数据的跳数为K。行为特征的提取过程大致为：首先将K跳所述子图数据通过输入层分别输入至K个图卷积模块，通过图卷积模块分别基于K跳所述子图数据的连接信息进行空间卷积特征提取。然后将提取得到的空间卷积特征经过连接层和卷积层，以完成所述对象的行为特征的提取过程。

步骤S203：根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征。

在步骤S203中，当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据有变化时，则确定当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据的变化强度。再根据当前帧的骨骼序列数据以及所述变化强度，确定所述行为特征对应的时间特征。

为了进一步确定所述行为特征对应的时间特征，可以首先将当前帧的骨骼序列数据以及所述变化强度进行深度学习，以确定时间注意力加权参数。然后再将所述时间注意力加权参数加权到输出特征中，以确定所述行为特征对应的时间特征。

步骤S204：根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

在步骤S204中，基于全卷积神经网络结构，根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

为了便于理解本发明实施例的行为识别方法，接下来以其中一种优选示例进行示例性说明。

本发明实施例提供了一种多尺度时空图卷积的骨骼序列行为识别网络。该网络通过新提出的子图划分方法，将骨骼序列数据划分为多跳子图数据。然后通过多近邻图卷积模块(M-GC)提取多空间尺度的行为特征。多个M-GC模块之间采用了跳接方式，可以提升训练的效率。在提取空间域的行为特征后，隐层数据被送入新设计的多尺度时间注意力提取模块(M-LSTM)提取时间特征，最后完成行为识别分类结果的输出，如图4所示。

为了使图卷积能在更宽的并行方式下运行，解决图卷积网络在加深过程中遇到的过拟合问题，必须在图数据上形成类似网格数据的不同大小邻域。因此必须对图卷积数据进行合理有效的划分。针对骨骼序列行为识别的特点，本发明实施例提出了一种新的多近邻子图划分方式。在已有的骨骼序列行为识别解决方案中，骨骼序列没有考虑到多跳的关节的间接连接关系。为了将骨骼节点的多跳连接关系更合理的进行表述。本发明实施例提出了一种多近邻的子图划分方式，如图5a至5d所示。G＝(V，E)表示骨骼关键点的图表示形式。则对于图中任意一个骨骼关键点(顶点)i，它的邻域内的所有顶点可被分为K个子集

其中v_ik是指切分完第k个子集的第i个关键点，K_j是指第j个子集。K个子集内的节点分别选自图G中距离顶点i为K跳的邻域节点(图中节点编号表示跳数)。为了更为精细的完成节点的描述，可以根据其与人体躯干中心的位置关系，将子集NS_i，k划分为了K跳离心节点集NS_i，k，i和K跳向心节点集NS_i，k，o。通过上述的划分方式可以将原来的一个图划分为了2K个多跳连接的子图数据。这些子图数据至少包括：骨骼关键点多跳(多空间尺度)的连接信息。除此之外，还包括原图中的直接连接关系描述。这些信息经过合理的网络结构的挖掘可以提取多空间尺度的人体部件信息(肢体或躯干)。多空间尺度的人体部件信息有益于行为识别性能的提升。

为了便于理解本发明实施例行为识别方法的工作原理，接下来以行为特征和时间特征的提取原理以及网络过程中所采用的损失函数进行示例性说明。

为了更好地提取多近邻子图数据中关于人体部件的信息，本发明实施例提出了一种并行多近邻的图卷积结构神经网络模块，并给出了该模块的前向推理计算方法。现有的图卷积网络主要用于在图数据上对顶点进行早期聚类，网络加深后会造成网络的过拟合，收敛的性能并不好，因此目前主流的图卷积网络都较浅。另外现有的图卷积网络大多基于图像的直接连接结构，未合理考虑多跳骨骼关键点之间的间接连接结构(对于骨骼行为识别很重要)。因此，本发明实施例提出了并行多尺度图卷积网络模块，可以在图结构数据上扩展网络宽度，可以在较浅的网络下获得较大的图感受野，弥补深层图卷积网络过拟合的问题。

参见图6，在从骨骼序列数据中提取行为特征时，可以将骨骼序列的坐标数据从输入层同时输送到K个子图的图卷积模块中。K个子图卷积是基于K种不同尺度(K跳)子图数据的连接信息做空间卷积特征提取。采用这种方式可以自动地提取不同尺度(例如，手腕，小臂，胳膊直至整个骨骼)的行为识别相关空间连接特征。多个图卷积提取的特征通过连接层后，经过1个1×1的卷积层，完成了特征的提取以保证网络参数不会随着层数增加而加深。

参见图3，为了生成骨骼连接图，本发明实施例还提出了一种基于行为识别骨骼序列数据的图生成模块，基于输入的骨骼数据序列可以生成关键点之间的弱连接关系，提升特征提取的丰富性。具体地，输入的骨骼数据通过维度变换分别生成数据块P(维度T×V×C)和数据块Q(维度T×C×V)，通过在后两个维度(V和C)做乘法，可以生成维度为V×V的T个邻接矩阵序列，分别表示基于数据集的各时刻关键点的连接强度。再通过LSTM训练生成一个的加权的邻接矩阵表示生成的骨骼连接图。

其中，多尺度并行图卷积模块的前向推理实现原理如下所示：图的连接关系一般可以通过邻接矩阵A来表示。正交化的图laplace矩阵可以表示为

其中，A表示邻接矩阵，I是对角单位矩阵。D_ii＝∑_jA_i，是度矩阵的对角元素。L是半正定对称矩阵，可以相似对角化为L＝UΛU^T，其中U是特征向量。定义g_θ(Λ)表示谱域的滤波参数，x为输入数据，图卷积可通过下式计算

g_θ*x＝Ug_θ(Λ)U^Tx

其中，θ表示近似的权重，x表示待卷积的骨骼序列数据。

采用切比雪夫多项式对卷积进行了近似处理，可以表示为

利用并行多紧邻子图方式，多近邻图卷积前向推理可按以下式计算，其中W是新设计中增加的空间图注意力加权矩阵，作为网络参数可以学习关键之间的多尺度连接强度

参见图7所示，为了便于提取时间特征，本发明实施例提出了一种多特征的时间注意力网络模块(LSTMAG)，基于多时间尺度的时间注意力的LSTM模块提取时间特征。可以理解的是，通过新增加一个LSTM模块，获取骨骼节点坐标在两帧数据之间的变化强度(可理解为速率)，结合原始的坐标特征学习生成时间注意力加权参数α_t。α_t加权到时间域LSTM的输出特征中，从而使得网络可以关注到与行为识别相关的时间帧数据。

参见图8，该模块将上述的时域注意力模型对输入数据帧开放不同大小的时间窗口，将这些具有不同时间窗口的时域注意力子模型的输出结果进行合并输出，以增加模型在不同时间尺度的特征捕获能力。

本发明实施例提供了一种多尺度时空图卷积网络的损失函数。为了提升网络的训练性能，控制集成权重的I_d的取值范围，为多尺度时空图卷积网络新设计了如下的损失函数：

其中，y_i表示标签的类别值，

表示预测的行为类别值，λ表示调整参数，D表示LSTM子模型的数量，I_d表示LSTM子模型集成的权重。

在本发明实施例中，该实施方式为一种时空多尺度图卷积的方式，可以提升基于骨骼序列的行为识别性能。与现有行为识别方法相比，主要具有以下优点：

2)在时间域，通过设计多尺度时间窗口及多特征注意力机制模块，提升了网络在时间域捕获不同尺度时间动态特征的能力

为了解决现有行为识别方式所存在的问题，本发明实施例提供了一种行为识别方法。图9是根据本发明实施例的行为识别方法的流程示意图，如图9所示，该行为识别方法具体可以包括如下的步骤S901至步骤S906。

步骤S901：在预设时间范围内按照预设间隔获取每帧待识别对象的图像。

在步骤S9O1中，所述对象可以为动物或人等。需要说明的是，获取到的每帧待识别对象的图像可以取自视频流或按照预设间隔拍摄所得的图像等，本发明实施例并不具体限定所述图像的获取方式。

步骤S902：采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据。

为了得到骨骼序列数据，可以采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据。其中深度摄像头可以为Kinect或者Real sensor等。姿态估计算法可以为openpose算法。从视频中提取人体的关节坐标信息可大大降低了需要处理的数据量，也降低了对计算资源的需求。因此基于骨骼序列的行为识别算法，往往具有更好的实时性能。基于人体骨骼关键点的表达方式，排除了大量原始视频中的冗余信息，有利于提升行为识别的准确率。

为了生成骨骼连接图，可以将预设时间范围内待识别对象的每帧骨骼序列数据变换分别生成第一数据块和第二数据块，所述第一数据块的维度为T×V×C，所述第二数据块的维度为T×C×V，其中T，V和C均为大于或等于1的整数；将所述第一数据块和所述第二数据块的V维度和C维度相乘，生成维度为V×V的T个邻接矩阵序列，所述邻接矩阵序列用于表示骨骼序列数据中骨骼关键点之间的连接强度。

步骤S903：将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；其中所述预设时间范围内待识别对象的每帧骨骼序列数据是按照预设间隔从待识别对象的图像中提取得到的。

在步骤S903中，每帧骨骼序列数据中至少包括一个骨骼关键点，不同跳数的子图数据是不同帧骨骼序列数据划分得到的，不同跳数的子图数据之间通过跳接方式连接。

为了使图卷积能在更宽的并行方式下运行，解决图卷积网络在加深过程中遇到的过拟合问题，可以在子图数据上形成类似网格数据的不同大小邻域。即在步骤S903之后，所述方法还包括：在每跳的所述子图数据中划分至少一个邻域，一个领域中的骨骼关键点存在连接关系；将所述子图数据中每个骨骼关键点i的领域内骨骼关键点划分为K个子集，其中K≥1；根据骨骼关键点与躯干中心的位置关系，将K个子集划分为K跳离心节点集和K跳向心节点集；然后执行根据K跳离心节点集和K跳向心节点集，确定所述对象的行为特征的步骤。

在划分领域时，可以按照骨骼关键点的连接关系，在每跳的所述子图数据中划分网格，以形成至少一个邻域，每个网格对应为一个领域，每个领域中的骨骼关键点存在连接关系。

步骤S904：根据划分得到的多跳子图数据，确定所述对象的行为特征。

在步骤S904中，根据图卷积神经网络，从划分得到的多跳子图数据中提取所述对象的行为特征。其中所述图卷积神经网络至少包括：输入层、连接层和卷积层，所述子图数据的跳数为K。行为特征的提取过程大致为：首先将K跳所述子图数据通过输入层分别输入至K个图卷积模块，通过图卷积模块分别基于K跳所述子图数据的连接信息进行空间卷积特征提取。然后将提取得到的空间卷积特征经过连接层和卷积层，以完成所述对象的行为特征的提取过程。

步骤S905：根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征。

在步骤S905中，当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据有变化时，则确定当前帧的骨骼序列数据相对于当前帧的上一帧骨骼序列数据的变化强度。再根据当前帧的骨骼序列数据以及所述变化强度，确定所述行为特征对应的时间特征。

步骤S906：根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

在步骤S906中，基于全卷积神经网络结构，根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

需要说明的是，步骤S901至步骤S906的实施原理与步骤S201至步骤S204的实施原理相似，为了避免重复，在此不再赘述。

图10是本发明实施例的骨骼序列行为识别装置的模块示意图，骨骼序列行为识别装置1000可以包括如下模块：

划分模块1001，用于将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；

第一确定模块1002，用于根据划分得到的多跳子图数据，确定所述对象的行为特征；

第二确定模块1003，用于根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征；

可选地，所述骨骼序列行为识别装置1000还包括：

第一划分模块，用于在每跳的所述子图数据中划分至少一个邻域，一个领域中的骨骼关键点存在连接关系；

第二划分模块，用于将所述子图数据中每个骨骼关键点i的领域内骨骼关键点划分为K个子集，其中K≥1；

第三划分模块，用于根据骨骼关键点与躯干中心的位置关系，将K个子集划分为K跳离心节点集和K跳向心节点集；然后执行根据K跳离心节点集和K跳向心节点集，确定所述对象的行为特征的步骤。

可选地，所述第一划分模块进一步用于：

可选地，所述第一确定模块1002进一步用于：

可选地，所述第二确定模块1003进一步用于：

将当前帧的骨骼序列数据以及所述变化强度进行深度学习，以确定时间注意力加权参数；

可选地，所述第二确定模块1003进一步用于：

可选地，所采用的损失函数为

其中，y_i表示标签的类别值，

可选地，所述识别模块进一步用于：

基于全卷积神经网络结构，根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

可选地，所述骨骼序列行为识别装置1000还包括：

获取模块，用于在预设时间范围内按照预设间隔获取每帧待识别对象的图像；

提取模块，用于采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据。

可选地，所述骨骼序列行为识别装置1000还包括：

维度变换模块，用于将预设时间范围内待识别对象的每帧骨骼序列数据变换分别生成第一数据块和第二数据块，所述第一数据块的维度为T×V×C，所述第二数据块的维度为T×C×V，其中T，V和C均为大于或等于1的整数；

运算模块，用于将所述第一数据块和所述第二数据块的V维度和C维度相乘，生成维度为V×V的T个邻接矩阵序列，所述邻接矩阵序列用于表示骨骼序列数据中骨骼关键点之间的连接强度。

图11示出了可以应用本发明实施例的行为识别方法或行为识别装置的示例性系统架构1100。

如图11所示，系统架构1100可以包括终端设备1101、1102、1103，网络1104和服务器1105。网络1104用以在终端设备1101、1102、1103和服务器1105之间提供通信链路的介质。网络1104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1101、1102、1103通过网络1104与服务器1105交互，以接收或发送消息等。终端设备1101、1102、1103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1101、1102、1103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1105可以是提供各种服务的服务器，例如对用户利用终端设备1101、1102、1103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的行为识别方法一般由服务器1105执行，相应地，行为识别装置一般设置于服务器1105中。

应该理解，图11中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图12，其示出了适于用来实现本发明实施例的终端设备的计算机系统1200的结构示意图。图12示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据；根据划分得到的多跳子图数据，确定所述对象的行为特征；根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征；根据所述对象的行为特征以及所述行为特征对应的时间特征，识别得到所述对象的行为分类结果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

根据划分得到的多跳子图数据，确定所述对象的行为特征；

2.根据权利要求1所述的方法，其特征在于，所述子图数据中至少包括一个骨骼关键点，多跳子图数据中的骨骼关键点之间存在连接关系，且多跳子图数据中的骨骼关键点之间的连接信息用于描述多个关节构成的所述对象的整体信息。

3.根据权利要求2所述的方法，其特征在于，将预设时间范围内待识别对象的每帧骨骼序列数据划分为至少一跳子图数据的步骤之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在每跳的所述子图数据中划分至少一个邻域包括：

5.根据权利要求1所述的方法，其特征在于，根据划分得到的多跳子图数据，确定所述对象的行为特征包括：

6.根据权利要求5所述的方法，其特征在于，所述图卷积神经网络至少包括：输入层、连接层和卷积层，所述子图数据的跳数为K；

7.根据权利要求1所述的方法，其特征在于，根据预设时间范围内待识别对象的每帧骨骼序列数据，确定所述行为特征对应的时间特征包括：

8.根据权利要求7所述的方法，其特征在于，根据当前帧的骨骼序列数据以及所述变化强度，确定所述行为特征对应的时间特征包括：

9.根据权利要求8所述的方法，其特征在于，将所述时间注意力加权参数加权到输出特征中，以确定所述行为特征对应的时间特征包括：

10.根据权利要求2所述的方法，其特征在于，在将待识别对象在预设时间范围内的骨骼序列数据划分为多跳的子图数据的步骤之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，采用深度摄像头或姿态估计算法，从获取到的每帧待识别对象的图像中提取骨骼序列数据的步骤之后，所述方法还包括：

12.一种行为识别装置，其特征在于，包括：

13.一种行为识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。