CN113537122A

CN113537122A - 动作识别方法和装置、存储介质及电子设备

Info

Publication number: CN113537122A
Application number: CN202110858676.4A
Authority: CN
Inventors: 刘金松; 魏乃科; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-22

Abstract

本发明公开了一种动作识别方法和装置、存储介质及电子设备。该方法包括：从包含目标对象的目标视频片段中，提取出所述目标对象当前所执行的目标动作的动作特征序列；将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数；获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数；分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。本发明解决了现有的动作识别技术识别准确率较低的技术问题。

Description

动作识别方法和装置、存储介质及电子设备

技术领域

本发明涉及动作识别技术领域，具体而言，涉及一种动作识别方法和装置、存储介质及电子设备。

背景技术

动作识别在人机交互、虚拟现实、视频监控、公共安全等领域广泛应用，逐渐成为计算机视觉最活跃的研究领域之一。在人机交互方面，动作识别能够让机器通过人的肢体动作理解人的行为，如体感游戏机，通过捕捉玩家在三维空间中的动作，对捕捉到的信息数据进行处理来使游戏中的角色做出同样的动作。这种人机交互娱乐的方式能够达到更佳的体验效果。如在智能家居中，我们可以通过不同的动作来控制各种家电，使我们的生活更加方便。视频监控领域中，采用人工进行视频分析，不仅耗费人力物力，并且不具备实时性。但摄像机搭载动作识别算法后，能够及时发现行人的异常行为并发出报警。

现有的动作识别技术主要是运用相关算法对动作数据建立相关模型，建立的模型通过对动作数据的学习也就是模型参数的更新，使其具有像人一样的认知经验，能够判别新的动作数据所属类别，但是现有动作识别算法存在动作识别准确率较低的技术问题。

发明内容

本发明实施例提供了一种动作识别方法和装置、存储介质及电子设备，以至少解决现有动作识别算法存在的动作识别准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种动作识别方法，包括：从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。

根据本发明实施例的另一方面，还提供了一种动作识别装置，包括：提取单元，用于从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；输入单元，用于将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；获取单元，用于获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；计算单元，用于分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；识别单元，用于将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述动作识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过计算机程序执行上述动作识别方法。

在本发明实施例中，采用从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列；将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数；获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数；分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别的方法，同时考察序列特征的相关性和重要程度，并充分考虑了一个动作所包含的各个子动作之间的联系，进而实现了提高动作识别率的技术效果，解决了现有动作识别算法存在的动作识别准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的动作识别方法的网络环境的示意图；

图2是根据本发明实施例的一种可选的动作识别方法的示意图；

图3是根据本发明实施例的另一种可选的动作识别方法的示意图；

图4是根据本发明实施例的又一种可选的动作识别方法的示意图；

图5是根据本发明实施例的一种可选的动作识别装置的结构示意图；

图6是根据本发明实施例的一种可选的动作识别模型的示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种动作识别方法，可选地，作为一种可选的实施方式，上述动作识别方法可以但不限于应用于如图1所示的网络环境中的动作识别系统中，该动作识别系统包括设备102、网络110及服务器112。设备102中包括提取单元103，输入单元104，获取单元105，计算单元106以及识别单元107。其中，提取单元103，用于从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；输入单元104，用于将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；获取单元105，用于获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；计算单元106，用于分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；识别单元107，用于将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。具体的，请参照步骤S101至步骤S110。

S101，服务器112获取一段视频片段，并将获取得到的视频片段发送给网络110；

S102，网络110将视频片段发送给设备102；

S103，设备102从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列；

S104，设备102将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数；

S105，设备102获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数；

S106，设备102分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；

S107，设备102将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别；

S108，设备102向网络110发送识别结果

S109，网络110向服务器112发送识别结果；

S110，服务器112接收识别结果，并根据识别结果发送指示消息。

可选地，在本实施例中，上述用户设备可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的计算机设备。上述服务器和用户设备可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

参见图2，根据本发明实施例的一个方面，提供了一种动作识别方法，包括：

S202，从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；

S204，将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；

S206，获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；

S208，分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；

S210，将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。

在本发明可选实施例中，上述步骤S204，动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型，可以包括以下步骤：

S1，在每个上下文识别模型中分别执行以下操作：

S2，通过上下文识别模型中的双向长短期记忆模块，对当前输入的动作特征序列进行位置编码，得到编码结果；

S3，通过与双向长短期记忆模块连接的多层自学习注意力模块，为编码结果分别赋予每层对应的注意力权重，以得到上下文识别模型对应的发射矩阵参数。

可选地，上述上下文识别模型可以采用BiLSTM-Self-Attention模型结构：模型主体采用6层Multi-Self-Attention模块堆叠而成，并采用BiLSTM模块进行位置编码，所以模型充分考虑了特征时序间的关系，并为每部分特征赋予不同程度的注意力，通过学习让模型更加关注对动作识别贡献大的特征。

可选地，上述BiLSTM-Self-Attention模型结构还可以是如图6所示的网络结构，包括：

输入层(Input layer)：用于输入维度为(T，N)的序列特征，送入BiLSTM-Self-Attention模型，其中，T指示序列长度，N指示特征数目

Embedding层：将每一个维度的特征量映射成固定长度的向量；

LSTM层：利用双向的LSTM对embedding向量计算；

Attention层：对双向LSTM的结果使用Attention加权；

输出层(Output layer)：输出层，输出具体的结果。

通过上述实施例记载的方法，采用基于注意力机制构建的上下文识别模型得到多个发射矩阵，并对当前输入的动作特征序列进行位置编码，充分考虑了特征时序间的关系，并为每部分特征赋予不同程度的注意力，实现了通过学习使得模型更加关注对动作识别贡献大的特征，提高了动作识别的准确率。

在本发明另一个可选实施例中，上述步骤S202，从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列之前，还可以包括以下步骤：

S1，获取多个样本视频片段；

S2，利用多个样本视频片段对初始化隐马尔科夫模型进行训练，直至达到第一训练收敛条件；

S3，将达到第一训练收敛条件的隐马尔科夫模型确定为达到目标状态，并保存目标状态下隐马尔科夫模型中的状态转移矩阵参数；

S4，利用多个样本视频片段以及目标状态下隐马尔科夫模型中的各个隐状态类别对应的标签，对每个动作类别各自对应的初始化上下文识别模型进行训练，直至达到第二训练收敛条件。

通过上述实施例记载的方法，通过在进行动作特征提取之前，对隐马尔科夫模型进行训练，并保留训练得到的隐马尔科夫模型的状态转移矩阵参数，实现了通过深度学习得到的状态转移矩阵参数，使得识别模型可以将动作分解为序列子动作的组合，充分考虑子动作之间的转换关系，提高了动作识别的准确率。

在本发明的另一个可选实施例中，上述利用多个样本视频片段对初始化隐马尔科夫模型进行训练，还可以包括：

S1，采用最大期望算法对初始化隐马尔科夫模型进行训练，得到状态转移矩阵参数；

S2，通过维比特算法获取从样本视频片段中提取出的样本特征序列对应的隐状态类别，并将隐状态类别作为用于训练得到上下文识别模型的参考标签。

可选地，上述隐马尔科夫模型可以是GMM-HMM模型。设定每个动作包含的隐变量数目为5，动作识别中隐变量即每个动作可能包含的动作片段，如：俯卧撑中包含俯卧与撑起，开合跳中包含双手张开与闭合等。GMM-HMM模型输入特征维度为(T，N)，其中T表示序列长度，N表示特征数目。

可选地，可以采用EM算法训练GMM-HMM模型，并保留其状态转移矩阵参数。

可选地，通过维比特算法解码获取序列对应的隐状态类别，隐状态类别作为后续深度学习模型训练的标签。

通过上述实施例记载的方法，通过在进行动作特征提取之前，对隐马尔科夫模型进行训练，并保留训练得到的隐马尔科夫模型的状态转移矩阵参数，实现了通过深度学习得到的状态转移矩阵参数以及隐状态类别，使得识别模型可以通过训练得到的隐状态类别作为标签对上下文识别模型进行训练，从而实现充分考虑子动作之间的转换关系，提高了动作识别的准确率。

在本发明的一个可选实施例中，上述步骤S202，从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，还可以包括：

S1，提取在目标视频片段中出现的目标对象对应的骨骼三维关键点特征；

S2，基于骨骼三维关键点特征所指示的骨骼关键点之间的位置关系，计算得到目标对象执行目标动作时的动作特征序列。

可选地，可以采集某几类动作视频片段，分为训练集与测试集，而后采用Kinect2.0相机获取人体骨骼3D关键点特征。

通过上述实施例记载的方法，根据目标视频片段提取特征序列，并有选择性地选取对肢体长度敏感度较低的特征点作为动作特征的提取对象，从而减少了动作特征提取位置的选择对识别结果的影响，提高了动作识别的准确率。

在本发明的一个可选实施例中，上述特征提取步骤基于骨骼三维关键点特征所指示的骨骼关键点之间的位置关系，计算得到目标对象执行目标动作时的动作特征序列包括，还可以包括：

S1，基于骨骼三维关键点特征确定多个关键点组合各自对应的坐标位置关系，其中，每个关键点组合中包括两个骨骼三维关键点；

S2，根据坐标位置关系确定关键点组合匹配的角度变化向量集；

S3，将各个关键点组合匹配的角度变化向量集，确定为目标动作时的动作特征序列。

可选地，为了获取对动作分类更有效的特征，对3D关键点进行深层特征提取，由于不同的人，肢体长度不同，所以采用对肢体长度敏感度较低的角度当做动作特征。

可选地，将左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，右膝-右脚踝，上述关键点组合成为10个感兴趣肢体组合，并以距离身体中心近的点作为原点(如：左肩-左肘组合中以左肩为原点，左肘-左手腕组合中以左肘为原点)，计算另一个关键点坐标距离原点的三维坐标，而后求其在球坐标系中的θ、ψ、以及帧间角度变化参数，由此可以得到10*3个即30个深层动作特征。

下面结合图3至图4，对本发明的一个具体实施例进行举例说明。

可选地，如图3所示，为本发明用于识别一种动作类别的神经网络模型的训练过程。

S301，Kinect采集三维关键点：通过Kinect2.0相机采集视频数据中的三维关键点信息，其中，视频数据中包括了一种特定的人体动作的影像，三维关键点信息指示人体上与动作相关的关键点的组合；

S302，提取空间及时间特征：根据采集得到的三维关键点信息提取空间及时间特征信息序列；

S303，保留训练得到的GMM-HMM的状态转移矩阵：将采集得到的空间及时间特征信息序列作为输入量输入训练得到的GMM-HMM模型，输出得到状态转移矩阵参数以及隐状态类别参数，并保留GMM-HMM模型的状态转移矩阵参数；

S304，结合GMM-HMM的隐状态类别训练识别模型BiLSTM-Self-Attention：将训练得到的GMM-HMM模型的隐状态类别参数作为标签用于对应于特定人体动作的BiLSTM-Self-Attention模型的训练，得到对应于一种特定人体动作的BiLSTM-Self-Attention-HMM模型。

可选地，BiLSTM-Self-Attention-HMM模型的输入与GMM-HMM模型输入相同，BiLSTM-Self-Attention-HMM模型采用GMM-HMM模型解码获取的隐状态类别作为标签训练得到，以SoftMax作为损失函数，通过梯度下降的方式训练，每个动作都需要训练一个BiLSTM-Self-Attention-HMM模型。

可选地，对同一种动作的多段视频数据采用上述步骤S301-S304多次执行，可训练得到对应于特定的一种人体动作的BiLSTM-Self-Attention-HMM模型。同时，对多种动作执行上述训练步骤，可训练得到对应于多种动作的BiLSTM-Self-Attention-HMM模型。

可选地，如图4所示，为本发明的一个具体的动作识别方法。

S401，Kinect采集三维关键点：通过Kinect2.0相机采集视频数据中的三维关键点信息，其中，视频数据中包括了一种特定的人体动作的影像，三维关键点信息指示人体上与动作相关的关键点的组合；

S402，提取空间及时间特征：根据采集得到的三维关键点信息提取空间及时间特征信息序列；

S403，输出得到发射矩阵参数：将采集得到的空间及时间特征信息序列作为输入量输入训练得到的对应于一种人体动作的BiLSTM-Self-Attention-HMM模型，输出得到对应于特定动作的发射矩阵参数；

S404，结合保留训练得到的GMM-HMM的状态转移矩阵计算动作得分：结合输出的发射矩阵参数以及对应于特定动作保留的GMM-HMM模型的状态转移矩阵参数计算对应于这种动作的得分。

可选地，BiLSTM-Self-Attention-HMM模型识别动作过程可以是：首先将维度为(T，N)的序列特征，送入训练得到的BiLSTM-Self-Attention-HMM模型，其中，T指示序列长度，N指示特征数目，从而得到特征相对于隐变量的概率P(y|x)。将转化为生成概率的P(y|x)后作为HMM模型的发射矩阵参数，结合GMM-HMM算法求得的状态转移矩阵参数，利用前向后向算法即可求得此序列特征下的动作得分。将动作序列送入N个BiLSTM-Self-Attention-HMM模型，得到N个动作得分，取动作得分最大的模型对应的动作类别为识别结果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述动作识别方法的控制装置。如图5所示，该装置包括：

提取单元501，用于从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；

输入单元502，用于将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；

获取单元503，用于获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；

计算单元504，用于分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；

识别单元505，用于将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。

可选地，根据本发明实施例的另一个方面，上述输入单元502还可以包括输入子单元，输入子单元用于在每个上下文识别模型中分别执行以下操作：

通过上下文识别模型中的双向长短期记忆模块，对当前输入的动作特征序列进行位置编码，得到编码结果；

通过与双向长短期记忆模块连接的多层自学习注意力模块，为编码结果分别赋予每层对应的注意力权重，以得到上下文识别模型对应的发射矩阵参数。

可选地，根据本发明实施例的另一个方面，上述提取单元还可以用于：

获取多个样本视频片段；

利用多个样本视频片段对初始化隐马尔科夫模型进行训练，直至达到第一训练收敛条件；

将达到第一训练收敛条件的隐马尔科夫模型确定为达到目标状态，并保存目标状态下隐马尔科夫模型中的状态转移矩阵参数；

利用多个样本视频片段以及目标状态下隐马尔科夫模型中的各个隐状态类别对应的标签，对每个动作类别各自对应的初始化上下文识别模型进行训练，直至达到第二训练收敛条件。

可选地，根据本发明实施例的另一个方面，上述提取单元在用于利用多个样本视频片段对初始化隐马尔科夫模型进行训练时，还包括：

采用最大期望算法对初始化隐马尔科夫模型进行训练，得到状态转移矩阵参数；

通过维比特算法获取从样本视频片段中提取出的样本特征序列对应的隐状态类别，并将隐状态类别作为用于训练得到上下文识别模型的参考标签。

可选地，根据本发明实施例的另一个方面，上述提取单元501还可以包括：

第一提取子单元，用于提取在目标视频片段中出现的目标对象对应的骨骼三维关键点特征；

第二提取子单元，用于基于骨骼三维关键点特征所指示的骨骼关键点之间的位置关系，计算得到目标对象执行目标动作时的动作特征序列。

可选地，根据本发明实施例的另一个方面，上述第二提取子单元还可以用于：

基于骨骼三维关键点特征确定多个关键点组合各自对应的坐标位置关系，其中，每个关键点组合中包括两个骨骼三维关键点；

根据坐标位置关系确定关键点组合匹配的角度变化向量集；

将各个关键点组合匹配的角度变化向量集，确定为目标动作时的动作特征序列。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述动作识别方法的电子装置，该电子装置包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从包含目标对象的目标视频片段中，提取出目标对象当前所执行的目标动作的动作特征序列，其中，动作特征序列用于指示目标对象执行目标动作时的时空变化特征；

S2，将动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；

S3，获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，隐马尔科夫是基于多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；

S4，分别对各个发射矩阵参数和状态转移矩阵参数进行整合计算，得到与每个动作类别各自对应的动作识别系数；

S5，将动作识别系数中的最大值对应的目标动作类别，识别为目标动作匹配的动作类别。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种动作识别方法，其特征在于，包括：

从包含目标对象的目标视频片段中，提取出所述目标对象当前所执行的目标动作的动作特征序列，其中，所述动作特征序列用于指示所述目标对象执行所述目标动作时的时空变化特征；

将所述动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，所述多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；

获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，所述隐马尔科夫是基于所述多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；

分别对各个所述发射矩阵参数和所述状态转移矩阵参数进行整合计算，得到与每个所述动作类别各自对应的动作识别系数；

将所述动作识别系数中的最大值对应的目标动作类别，识别为所述目标动作匹配的动作类别。

2.根据权利要求1所述的方法，其特征在于，将所述动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数包括：

在每个所述上下文识别模型中分别执行以下操作：

通过所述上下文识别模型中的双向长短期记忆模块，对当前输入的所述动作特征序列进行位置编码，得到编码结果；

通过与所述双向长短期记忆模块连接的多层自学习注意力模块，为所述编码结果分别赋予每层对应的注意力权重，以得到所述上下文识别模型对应的所述发射矩阵参数。

3.根据权利要求1所述的方法，其特征在于，在从包含目标对象的目标视频片段中，提取出所述目标对象当前所执行的目标动作的动作特征序列之前，还包括：

获取所述多个样本视频片段；

利用所述多个样本视频片段对初始化隐马尔科夫模型进行训练，直至达到第一训练收敛条件；

将达到所述第一训练收敛条件的隐马尔科夫模型确定为达到所述目标状态，并保存所述目标状态下隐马尔科夫模型中的所述状态转移矩阵参数；

利用所述多个样本视频片段以及所述目标状态下隐马尔科夫模型中的各个隐状态类别对应的标签，对每个动作类别各自对应的初始化上下文识别模型进行训练，直至达到第二训练收敛条件。

4.根据权利要求3所述的方法，其特征在于，在利用所述多个样本视频片段对初始化隐马尔科夫模型进行训练时，包括：

采用最大期望算法对初始化隐马尔科夫模型进行训练，得到所述状态转移矩阵参数；

通过维比特算法获取从所述样本视频片段中提取出的样本特征序列对应的隐状态类别，并将所述隐状态类别作为用于训练得到所述上下文识别模型的参考标签。

5.根据权利要求1所述的方法，其特征在于，从包含目标对象的目标视频片段中，提取出所述目标对象当前所执行的目标动作的动作特征序列包括：

提取在所述目标视频片段中出现的所述目标对象对应的骨骼三维关键点特征；

基于所述骨骼三维关键点特征所指示的骨骼关键点之间的位置关系，计算得到所述目标对象执行所述目标动作时的所述动作特征序列。

6.根据权利要求5所述的方法，其特征在于，基于所述骨骼三维关键点特征所指示的骨骼关键点之间的位置关系，计算得到所述目标对象执行所述目标动作时的所述动作特征序列包括：

基于所述骨骼三维关键点特征确定多个关键点组合各自对应的坐标位置关系，其中，每个所述关键点组合中包括两个骨骼三维关键点；

根据所述坐标位置关系确定所述关键点组合匹配的角度变化向量集；

将各个所述关键点组合匹配的角度变化向量集，确定为所述目标动作时的所述动作特征序列。

7.一种动作识别装置，其特征在于，包括：

提取单元，用于从包含目标对象的目标视频片段中，提取出所述目标对象当前所执行的目标动作的动作特征序列，其中，所述动作特征序列用于指示所述目标对象执行所述目标动作时的时空变化特征；

输入单元，用于将所述动作特征序列输入多个基于注意力机制构建的上下文识别模型中，得到多个发射矩阵参数，其中，所述多个基于注意力机制构建的上下文识别模型中的每个上下文识别模型，分别是基于多个样本视频片段进行训练得到的用于识别一种动作类别的神经网络模型；

获取单元，用于获取基于高斯混合分布机制构建的隐马尔科夫模型在训练到目标状态下得到的状态转移矩阵参数，其中，所述隐马尔科夫是基于所述多个样本视频片段进行训练得到的用于确定隐状态类别的神经网络模型；

计算单元，用于分别对各个所述发射矩阵参数和所述状态转移矩阵参数进行整合计算，得到与每个所述动作类别各自对应的动作识别系数；

识别单元，用于将所述动作识别系数中的最大值对应的目标动作类别，识别为所述目标动作匹配的动作类别。

8.根据权利要求7所述的装置，其特征在于，所述输入单元包括输入子单元，所述输入子单元用于在每个所述上下文识别模型中分别执行以下操作：

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至6任一项中所述的动作识别方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至6任一项中所述的动作识别方法。