CN109685037A

CN109685037A - 一种实时动作识别方法、装置及电子设备

Info

Publication number: CN109685037A
Application number: CN201910017362.4A
Authority: CN
Inventors: 白帆; 彭菲; 黄磊; 张健
Original assignee: Beijing Hanvon Zhiyuan Technology Co Ltd
Current assignee: Beijing Hanvon Zhiyuan Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-04-26
Anticipated expiration: 2039-01-08
Also published as: CN109685037B

Abstract

本申请提供了一种实时动作识别方法，属于生物特征识别领域，解决现有技术中实时动作识别方法识别速度慢的问题。本申请提供的实时动作识别方法包括：确定待识别动作发生过程中的当前动作节点对应的实时动作图像；将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果；根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果；其中，所述实时动作图像关联的图像序列由所述实时动作图像关联的动作图像依序排列而成，有助于解决现有技术中进行动作识别时，识别速度慢的问题。

Description

一种实时动作识别方法、装置及电子设备

技术领域

本申请涉及生物特征识别领域，尤其涉及一种实时动作识别方法、装置及电子设备。

背景技术

行为识别近年来一直是计算机视觉领域的研究热点，动作识别是行为识别的一种，其在智能监控、人机交互、虚拟现实等领域方面均有广泛应用。人类动作有着多种模态，例如外观、深度、光流和身体骨骼等特点，现有技术中，动作识别涉及如下几类研究方法：

基于全局特征的方法，包括帧差法及光流法等，此类方法对于提取运动特征较为有效，但对运动时间间隔变化比较敏感；

基于局部特征的方法有SIFT算法、Harris算法，这类算法要求纹理足够多，其中纹理和识别率成线性关系，即图像纹理越少，出现误匹配的概率就越大；

基于人体模型的方法，将人体模型表现为骨骼节点及节点间连线来表示人体姿势，这种方法对视频中的光线明暗程度、衣着复杂程度、背景杂乱等干扰因素有较强的抗干扰作用，而且简明直观。

然而，由于通过提取骨骼节点信息进行动作识别时，获取的信息量较少，因此现有技术中基于人体骨骼节点的动作识别方法的识别准确率仍有待提高。并且，现有技术中的基于骨骼节点的动作识别方法需要采集众多的动作图像并从中萃取关键帧，存在识别速度慢的问题。

可见，现有技术中的动作识别方法仍存在识别速度慢和识别准确率不高的问题。

发明内容

本申请实施例提供一种实时动作识别方法及装置，以至少解决现有的实时动作识别方法识别速度慢的问题。

第一方面，本申请实施例提供了一种实时动作识别方法，包括：

确定待识别动作发生过程中的当前动作节点对应的实时动作图像；

将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果；

根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果；

其中，所述实时动作图像关联的图像序列由所述实时动作图像对应的当前动作节点之前预设数量的动作节点各自对应的实时动作图像和所述当前动作节点对应的实时动作图像，按照所述动作节点发生时间先后顺序排列而成。

可选的，所述将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果的步骤之前，还包括：

获取每个预设动作发生过程中的至少一个标志性动作节点对应的若干动作图像构成的样本图像集；

根据所述样本图像集进行深度卷积神经网络训练，得到单帧图像动作识别模型。

可选的，所述与所述实时动作图像关联的图像序列对应的图像序列识别结果为：基于所述图像序列中每帧动作图像的骨骼节点信息，通过预先训练的图像序列动作识别模型对所述图像序列进行识别所得到的图像序列识别结果。

可选的，所述根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果的步骤，包括：

判断与所述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件；

若与所述实时动作图像对应的单帧图像识别结果满足第一预设准确度条件，则将所述单帧图像识别结果作为所述待识别动作的识别结果。

可选的，所述根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果的步骤，还包括：

在与所述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，执行以下步骤：

基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果；

判断与所述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件；

若满足第二预设准确度条件，则根据所述图像序列识别结果与所述实时动作图像对应的单帧图像识别结果的融合结果，确定所述待识别动作的识别结果；否则，

根据所述图像序列识别结果，确定所述待识别动作的识别结果。

可选的，所述基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果的步骤，包括：

分别根据所述图像序列中每帧动作图像的骨骼节点信息，确定所述每帧动作图像对应的骨骼节点图像；

将所述骨骼节点图像组成的图像序列输入至预先训练的图像序列动作识别模型，确定待识别动作的图像序列识别结果。

可选的，所述将所述骨骼节点图像组成的图像序列输入至预先训练的图像序列动作识别模型，确定待识别动作的图像序列识别结果的步骤之前，还包括：

获取预设动作发生过程中的若干顺序发生的动作节点对应的动作图像构成的样本图像序列；

确定所述样本图像序列中每帧动作图像中的骨骼节点信息，确定所述每帧动作图像对应的骨骼节点样本图像；

将所述骨骼节点样本图像依序排列，构成骨骼节点样本图像序列；

根据所述骨骼节点样本图像序列进行时空图卷积网络训练，得到图像序列动作识别模型。

第二方面，本申请实施例还提供了一种实时动作识别装置，包括：

实时动作图像确定模块，用于确定待识别动作发生过程中的当前动作节点对应的实时动作图像；

单帧图像识别模块，用于将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果；

待识别动作识别结果确定模块，用于根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果；

可选的，在将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果之前，所述装置还包括：

样本图像集获取模块，用于获取每个预设动作发生过程中的至少一个标志性动作节点对应的若干动作图像构成的样本图像集；

单帧图像动作识别模型训练模块，用于根据所述样本图像集进行深度卷积神经网络训练，得到单帧图像动作识别模型。

可选的，所述待识别动作识别结果确定模块，进一步包括：

第一判断子模块，用于判断与所述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件；

第一识别结果确定子模块，用于若与所述实时动作图像对应的单帧图像识别结果满足第一预设准确度条件，则将所述单帧图像识别结果作为所述待识别动作的识别结果。

可选的，在与所述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，所述待识别动作识别结果确定模块，还包括：

图像序列识别结果确定子模块，用于基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果；

第二判断子模块，用于判断与所述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件；

第二识别结果确定子模块，用于若满足第二预设准确度条件，则根据所述图像序列识别结果与所述实时动作图像对应的单帧图像识别结果的融合结果，确定所述待识别动作的识别结果；以及，

第三识别结果确定子模块，用于若与所述实时动作图像对应的单帧图像识别结果不满足第二预设准确度条件时，根据所述图像序列识别结果，确定所述待识别动作的识别结果。

可选的，所述基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果时，所述图像序列识别结果确定子模块用于：

可选的，所述装置还包括：

样本图像序列获取模块，用于获取预设动作发生过程中的若干顺序发生的动作节点对应的动作图像构成的样本图像序列；

骨骼节点样本图像确定模块，用于确定所述样本图像序列中每帧动作图像中的骨骼节点信息，确定所述每帧动作图像对应的骨骼节点样本图像；

骨骼节点样本图像序列确定模块，用于将所述骨骼节点样本图像依序排列，构成骨骼节点样本图像序列；

图像序列动作识别模型训练模块，用于根据所述骨骼节点样本图像序列进行时空图卷积网络训练，得到图像序列动作识别模型。

第三方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的实时动作识别方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的实时动作识别方法的步骤。

这样，本申请实施例公开的实时动作识别方法，通过确定待识别动作发生过程中的当前动作节点对应的实时动作图像；将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定待识别动作的与所述实时动作图像对应的单帧图像识别结果；根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果；其中，所述实时动作图像关联的图像序列由所述实时动作图像对应的当前动作节点之前预设数量的动作节点各自对应的实时动作图像和所述当前动作节点对应的实时动作图像，按照所述动作节点发生时间先后顺序排列而成，有助于解决现有技术中进行动作识别时，识别速度慢的问题。本申请实施例公开的实时动作识别方法根据单帧动作图像识别情况进一步确定通过单帧动作图像的识别结果进行动作识别，或通过多帧动作图像的识别结果进行动作识别，由于采用了预先训练的模型进行单帧动作图像识别，可以进一步提升动作识别的准确率，进而在单帧动作图像识别置信度较高情况下，可以大大提升识别速度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的实时动作识别方法流程图；

图2是本申请实施例二的实时动作识别方法流程图；

图3是本申请实施例二中确定的骨骼节点图像示意图；

图4是本申请实施例三的实时动作识别装置结构图之一；

图5是本申请实施例三的实时动作识别装置结构图之二；

图6是本申请实施例三的实时动作识别装置一个模块的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：

本实施例提供了一种实时动作识别方法，如图1所示，所述方法包括：步骤10至步骤12。

步骤10，确定待识别动作发生过程中的当前动作节点对应的实时动作图像。

人类的某一动作的发生，是由一系列的顺序发生的过程动作组成的，而每一个过程动作可以认为是该动作的一个动作节点。例如，当一个“摔倒动作”发生时，会顺序出现“身体倾斜”、“手扬起”，“倒地”等顺序发生的过程动作，其中，每个过程动作如“身体倾斜”、“手扬起”，“倒地”认为是“摔倒动作”的一个动作节点。动作的复杂度不同，构成该动作的动作节点的数量也不同。例如，“举手”动作，构成该动作的动作节点可以仅包括“手抬高”一个动作节点。

以实时视频监控领域的行人动作识别举例，在进行视频监控范围内行人的实时动作识别的过程中，通过截取监控视频的当前帧图像，将所述当前帧图像作为视频监控范围内行人的当前动作节点对应的实时动作图像。

步骤11，将上述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与上述实时动作图像对应的单帧图像识别结果。

然后，将确定的当前动作节点对应的实时动作图像输入至预先训练的单帧图像动作识别模型，并将单帧图像动作识别模型相应的输出作为上述实时动作图像对应的单帧图像识别结果，即待识别动作基于上述实时动作图像的单帧图像识别结果。

本申请具体实施时，首先需要训练单帧图像动作识别模型。其中，单帧图像动作识别模型是通过预设动作的若干标志性动作节点的图像训练得到的。

例如，对于需要识别摔倒动作、奔跑动作的单帧图像动作识别模型，首先需要确定摔倒动作的一个或多个标志性动作节点，然后，分别获取确定的所述摔倒动作的一个或多个标志性动作节点的若干图像作为样本数据，并将样本标签设置为指示摔倒动作，构建摔倒动作的训练样本；以及，确定奔跑动作的一个或多个标志性动作节点，然后，分别获取确定的奔跑动作的一个或多个标志性动作节点的若干图像作为样本数据，并将样本标签设置为指示奔跑动作，构建奔跑动作的训练样本；最后，通过上述摔倒动作的训练样本和奔跑动作的训练样本，训练单帧图像动作识别模型。具体实施时，可以基于深度卷积神经网络训练单帧图像动作识别模型，也可以基于SVM分类器等分类模型训练单帧图像动作识别模型。

具体实施时，某一动作的标志性动作节点通常为该动作必然发生的肢体动作，或视觉上最能体现该动作特点的肢体动作。

步骤12，根据与上述实时动作图像对应的单帧图像识别结果，和/或,与上述实时动作图像关联的图像序列对应的图像序列识别结果，确定待识别动作的识别结果。

其中，所述实时动作图像关联的图像序列由所述实时动作图像对应的当前动作节点之前预设数量的动作节点各自对应的实时动作图像和所述当前动作节点对应的实时动作图像，按照所述动作节点发生时间先后顺序排列而成；与上述实时动作图像关联的图像序列对应的图像序列识别结果为：基于图像序列中每帧动作图像的骨骼节点信息，通过预先训练的图像序列动作识别模型对该图像序列进行识别所得到的图像序列识别结果。

在本申请的一些具体应用场景中，由于在单帧图像动作识别模型训练过程中，选择了预设动作的单帧动作图像作为训练样本，因此可以实现基于实时动作的单帧动作图像进行实时动作识别。其中，单帧图像动作识别模型的识别结果用于表示输入的动作图像是预设动作的置信度。

具体实施时，如果与上述实时动作图像对应的单帧图像识别结果满足预设条件，例如大于或等于预设置信度阈值，则认为根据该单帧实时动作图像的识别结果即可确定待识别动作的识别结果。如果与上述实时动作图像对应的单帧图像识别结果不满足预设条件，例如小于预设置信度阈值，则需要进一步结合上述实时动作图像关联的图像系列对应的图像序列识别结果，确定待识别动作的识别结果。

例如，根据上述实时动作图像关联的图像系列对应的图像序列识别结果，确定待识别动作的识别结果；或者，结合上述实时动作图像关联的图像系列对应的图像序列识别结果和与上述实时动作图像对应的单帧图像识别结果，确定待识别动作的识别结果。

本申请实施例公开的实时动作识别方法，通过确定待识别动作发生过程中的当前动作节点对应的实时动作图像；将实时动作图像输入至预先训练的单帧图像动作识别模型，确定待识别动作的与上述实时动作图像对应的单帧图像识别结果；根据与上述实时动作图像对应的单帧图像识别结果，和/或,与上述实时动作图像关联的图像序列对应的图像序列识别结果，确定待识别动作的识别结果，有助于解决现有技术中进行动作识别时，识别速度慢的问题。本申请实施例公开的实时动作识别方法根据单帧动作图像识别情况进一步确定通过单帧动作图像的识别结果进行动作识别，或通过多帧动作图像的识别结果进行动作识别，由于采用了预先训练的模型进行单帧动作图像识别，可以进一步提升动作实别的准确率，进而在单帧动作图像识别置信度较高情况下，可以大大提升识别速度。

实施例二：

本实施例提供了一种实时动作识别方法，如图2所示，所述方法包括：步骤20至步骤29。

步骤20，训练单帧图像动作识别模型。

在本申请的一些实施例中，将实时动作图像输入至预先训练的单帧图像动作识别模型，确定待识别动作的与上述实时动作图像对应的单帧图像识别结果的步骤之前，还包括：训练单帧图像动作识别模型。

具体实施时，训练单帧图像动作识别模型包括：获取每个预设动作发生过程中的至少一个标志性动作节点对应的若干动作图像构成的样本图像集；根据上述样本图像集进行深度卷积神经网络训练，得到单帧图像动作识别模型。本申请实施例中的预设动作指期望能够识别的动作，不限于某一种或某几种动作。

其中，单帧图像动作识别模型是通过预设动作的若干标志性动作节点的图像训练得到的。例如，对于需要识别摔倒动作、奔跑动作的单帧图像动作识别模型，首先需要确定摔倒动作的一个或多个标志性动作节点，然后，分别获取确定的所述摔倒动作的一个或多个标志性动作节点的若干图像作为样本数据，并将样本标签设置为指示摔倒动作，构建摔倒动作的训练样本；以及，确定奔跑动作的一个或多个标志性动作节点，然后，分别获取确定的奔跑动作的一个或多个标志性动作节点的若干图像作为样本数据，并将样本标签设置为指示奔跑动作，构建奔跑动作的训练样本；最后，通过上述摔倒动作的训练样本和奔跑动作的训练样本，训练单帧图像动作识别模型。

具体实施时，优选的，基于深度卷积神经网络训练单帧图像动作识别模型，有助于提升动作识别的准确度。用于训练单帧图像动作识别模型的图像，可以为从预设动作的视频中抽取的若干图像帧。

具体实施时，某一动作的标志性动作节点通常为该动作必然发生的肢体动作，或视觉上最能体现该动作特点的肢体动作。例如通过对若干摔倒视频的分析，发现在摔倒动作发生过程中，普遍会出现人体前倾或后仰的动作，以及倒地的动作，则可以将人体前倾或后仰或倒地的若干视频图像帧作为摔倒动作的一个标志性动作节点的若干动作图像，并为上述每个动作图像设置摔倒动作标签，作为训练基于单帧图像动作识别模型的训练样本。

再例如，通过发明人经过研究发现，奔跑动作发生过程中，人体会出现曲臂抬腿的动作，因此，可以将人类奔跑的视频图像中出现曲臂抬腿的若干视频图像帧作为奔跑动作的若干标志性动作节点的动作图像，并为奔跑动作的上述每个动作图像设置奔跑动作标签，作为训练基于单帧图像动作识别模型的训练样本。

具体实施时，不同动作的复杂程度不同，因此每个预设动作的标志性动作节点的个数也不同：当动作较简时，可以标注较少的标志性动作节点的动作图像；当动作比较复杂时，则需要标注较多的标志性动作节点的动作图像，这样动作识别模型可以针对不同复杂度的动作进行自主学习，从而使训练得到的单帧图像动作识别模型具有更高的识别精度和泛化能力。具体实施时，挑选标志性动作节点对应的动作图像的工作是根据对动作的复杂程度的先验知识来自适应的完成的。

步骤21，训练图像序列动作识别模型。

在本申请的一些实施例中，将骨骼节点图像组成的图像序列输入至预先训练的图像序列动作识别模型，确定待识别动作的图像序列识别结果的步骤之前，还包括：训练图像序列动作识别模型。

具体实施时，训练图像序列动作识别模型包括：获取预设动作发生过程中的若干顺序发生的动作节点对应的动作图像构成的样本图像序列；确定上述样本图像序列中每帧动作图像中的骨骼节点信息，确定上述每帧动作图像对应的骨骼节点样本图像；将确定的骨骼节点样本图像依序排列，构成骨骼节点样本图像序列；根据构成的骨骼节点样本图像序列进行时空图卷积网络训练，得到图像序列动作识别模型。

一个动作发生是有个过程的，在这个过程中的一连串动作的结果，导致该动作最终发生。当通过单帧图像无法准确识别出实时发生的动作时，可以结合该帧图像之前的一系列顺序发生的动作的图像识别当前动作。因此，需要预先根据某一动作的一系列顺序发生的动作的图像训练图像序列动作识别模型。

具体实施时，首先需要获取预设动作发生过程中的若干顺序发生的一系列动作节点对应的动作图像构成的样本图像序列。

例如，对于一段拍摄摔倒动作的具有X帧图像的视频片段，可以使用step＝3间隔进行下采样，每段短视频取Y帧图像(如Y＝16)，得到的Y帧图像可以构成了摔倒动作的样本图像序列。通过对视频进行下采样确定某个动作的样本图像序列，有利于消除帧间的冗余信息，因为视频中有大量的冗余信息，在不影响识别结果的情况下，对视频进行下采样，能够尽量避免冗余信息对视频处理速度上的影响。

然后，确定样本图像序列中每帧动作图像中的骨骼节点信息，并确定每帧动作图像对应的骨骼节点样本图像。确定样本图像序列中每帧动作图像中的骨骼节点信息的具体实施方式，参见现有技术，本申请实施例中不再赘述。通常，一帧动作图像中的骨骼节点信息包括骨骼节点的位置坐标，以及骨骼节点之间的自然连接关系。根据动作图像中的骨骼节点信息可以确定一帧如图3所示的骨骼节点图像，作为一帧骨骼节点样本图像。按照上述方法，对于每个样本图像序列中的每帧图像，此处称为原始图像，可以得到相应的骨骼节点样本图像。

然后，将根据每个样本图像序列中的每帧原始图像得到的相应骨骼节点样本图像，按照与相应原始图像在该样本图像序列中的一致的位置顺序进行排列，得到与该样本图像序列对应的骨骼节点样本图像序列。

按照前述方法，采集大量视频片段，构建各预设动作对应的若干骨骼节点样本图像序列，并为每个骨骼节点样本图像序列设置相应的动作标签。

最后，根据构建的骨骼节点样本图像序列及相应的动作标签训练图像序列动作识别模型。

时空图模型(ST-GCN，即时空图卷积网络模型)可以自主学习数据中的时间、空间模式，超越了传统神经网络单纯基于空间信息进行识别的局限性，具有更强的表现力和泛化能力。本申请具体实施时，基于时空图卷积网络模型构建图像序列动作识别模型，并根据上述骨骼节点样本图像序列及相应的动作标签训练图像序列动作识别模型。

训练图像序列动作识别模型的过程，就是通过对输入的骨骼节点样本图像序列进行时间和空间维度的数据进行图卷积运算，从而实现对输入图像序列进行特征提取和映射，并以映射得到的特征与相应样本的动作标签误差最小为目标进行网络优化的过程。在图卷积中，骨骼节点集合G＝{g_ti|t＝1,2,......,T,i＝1，2，......N}表示所有的骨骼节点序列，其中，T为骨骼节点样本图像序列包括的骨骼节点图像的帧数，N为单帧骨骼节点图像中骨骼节点的个数，t代表骨骼节点图像对应的视频图像帧的时刻，i代表骨骼节点序号，g_ti表示t时刻对应的骨骼节点图像的第i个骨骼节点的位置信息。

时空图卷积中存在两种类型的边，即符合关节的自然连接的空间边:其中，H是同一帧图像中自然连接的骨骼节点集合；连续的时间步骤中连接相同关节的时间边:E_F＝{g_tig_(t+1)i}。第i个骨骼节点的邻域集合表示为：B(v_ti)＝{d(v_tj,v_ti)≤K},其中，d(v_tj,v_ti)表示从骨骼节点i到骨骼节点j的最短距离，v_ti和v_tj表示t时刻对应的骨骼节点图像中i点和j点的特征向量；在时空图卷积中，B(v_ti)的定义稍有不同：B(v_ti)＝{v_qj|d(v_tj,v_ti)≤K,|q-t|≤T/2},其中，T用于表示控制骨骼节点图像序列的长度，K用于控制空间结构中相邻骨骼节点的个数。在实际应用中，可以调节T和K两个参数来改变时空图卷积网络。

本申请具体实施时，将时空图卷积定义为：

其中，f_in是时空图卷积的输入，f_out是时空图卷积的输出，Z_ti(v_tj)代表正则项，它能够平衡不同子集对输出的影响，通过以下公式确定：

Z_ti(v_tj)＝|{v_tk|l_ti(v_tk)＝l_ti(v_tj)}|； (公式2)

在上述公式2中，l_ti(v_tj)表示将骨骼节点i邻域的骨骼节点j映射到对应的标签子集，不同的标签子集所赋予的权重不同；该映射关系可以采用不同的策略。

上述公式1中，p(v_ti,v_tj)＝v_tj，其中，骨骼节点j属于第i个骨骼节点的邻域集合B(v_tj)。

上述公式1中，w(v_ti,v_tj)表示不同通道特征的权重，可以通过公式w(v_ti,v_tj)＝w'(l_ti(v_tj))表示。

因此，可以将上述公式1简化为：

将上述骨骼节点样本图像序列输入至构建好的图像序列动作识别模型之后，该图像序列动作识别模型从空间和时间两个维度对输入的骨骼节点样本图像序列进行卷积运算，并输出特征映射结果。

步骤22，确定待识别动作发生过程中的当前动作节点对应的实时动作图像。

确定待识别动作发生过程中的当前动作节点对应的实时动作图像的具体实施方式参见实施例一，本实施例不再赘述。

步骤23，将上述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与上述实时动作图像对应的单帧图像识别结果。

在本申请的一些实施例中，以单帧图像动作识别模型用于识别摔倒动作和奔跑动作举例，本步骤中，将上述实时动作图像输入至预先训练的单帧图像动作识别模型之后，模型将输出该实时动作图像分别识别为摔倒动作和奔跑动作的置信度得分。

步骤24，判断与上述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件，若是，则跳转至步骤29，否则，跳转至步骤25。

在本申请的一些实施例中，根据与上述实时动作图像对应的单帧图像识别结果，和/或,与上述实时动作图像关联的图像序列对应的图像序列识别结果，确定待识别动作的识别结果的步骤，包括：判断与上述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件；若与上述实时动作图像对应的单帧图像识别结果满足第一预设准确度条件，则将上述单帧图像识别结果作为待识别动作的识别结果。其中，所述实时动作图像关联的图像序列由所述实时动作图像对应的当前动作节点之前预设数量的动作节点各自对应的实时动作图像和所述当前动作节点对应的实时动作图像，按照所述动作节点发生时间先后顺序排列而成。

具体实施时，根据识别精度的要求设置第一预设准确度条件，例如，将第一预设准确度条件设置为单帧图像识别结果(即置信度得分)大于等于0.9。

首先，判断与上述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件，如果满足第一预设准确度条件(如置信度得分大于0.9)，则说明仅凭借当前帧的动作图像即可准确识别待识别动作，则直接跳转至步骤29，输出识别结果。如果，不满足第一预设准确度条件(如置信度得分小于0.9)，则说明仅凭借当前帧的动作图像无法准确识别待识别动作，则需要继续对后续动作的动作图像进行识别或者通过多帧动作图像进行识别。

步骤25，基于图像序列中每帧动作图像的骨骼节点信息，确定与该图像序列对应的图像序列识别结果。

在本申请的一些实施例中，在与上述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，根据与上述实时动作图像对应的单帧图像识别结果，和/或,与上述实时动作图像关联的图像序列对应的图像序列识别结果，确定待识别动作的识别结果的步骤，还包括：执行以下步骤：基于图像序列中每帧动作图像的骨骼节点信息，确定与该图像序列对应的图像序列识别结果；判断与上述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件；若满足第二预设准确度条件，则根据该图像序列识别结果与上述实时动作图像对应的单帧图像识别结果的融合结果，确定待识别动作的识别结果；否则，根据该图像序列识别结果，确定待识别动作的识别结果。

进一步的，在与上述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，需要通过多帧动作图像进行识别。具体实施时，首先判断与当前实时动作图像的关联的图像序列A中是否包含足够数量的图像帧(如16帧)。如果还图像序列A中包含足够数量的图像帧，则结合当前动作节点对应的实时动作图像的单帧图像识别结果、图像序列A的图像序列识别结果，进一步确定待识别动作的识别结果。其中，与当前实时动作图像的关联的图像序列A为当前实时动作图像对应的当前动作节点之前顺序发生的动作节点的动作图像和上述实时动作图像构成的图像序列，该图像序列中的动作图像按照对应的动作节点发生时间的先后顺序从前向后排列。因此，还需要确定与所述实时动作图像关联的图像序列所对应的图像序列识别结果。

本申请具体实施时，基于图像序列中每帧动作图像的骨骼节点信息，确定与该图像序列对应的图像序列识别结果的步骤，包括：分别根据上述图像序列中每帧动作图像的骨骼节点信息，确定每帧动作图像对应的骨骼节点图像；将确定的骨骼节点图像组成的图像序列输入至预先训练的图像序列动作识别模型，确定待识别动作的图像序列识别结果。

例如，分别确定上述图像序列A中包含的每个图像帧对应的骨骼节点图像，并按照与上述图像序列A中包含的图像帧的顺序，对确定的骨骼节点图像进行排序，得到骨骼节点图像序列B。最后，将骨骼节点图像序列B输入至前述步骤中训练得到图像序列动作识别模型，该模型的相应输出则为与所述实时动作图像关联的预设数量动作图像构成的图像序列所对应的图像序列识别结果。

步骤26，判断与上述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件，若满足，则执行步骤27，否则，跳转至执行步骤28。

具体实施时，根据识别精度的要求设置第二预设准确度条件，例如，将第二预设准确度条件设置为单帧图像识别结果(即置信度得分)大于等于0.6且小于0.9。在确定单帧图像识别结果不满足第一预设准确度条件，并且，当前动作节点对应的实时动作图像之前已经累积获取了预设数量的动作图像之后，将执行基于图像序列识别结果，确定待识别动作的识别结果的操作。

进一步的，判断与上述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件，例如，判断与上述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件(如是否大于0.6且小于0.9),如果满足，说明与上述实时动作图像对应的单帧图像识别结果具有一定参考价值，则进一步执行识别结果融合。否则，直接根据图像序列识别结果确定待识别动作的识别结果。

步骤27，根据图像序列识别结果与上述实时动作图像对应的单帧图像识别结果的融合结果，确定待识别动作的识别结果。

具体实施时，可以通过对上述图像序列识别结果和与上述实时动作图像对应的单帧图像识别结果分别赋予不同的权重，然后，对上述图像序列识别结果和与上述实时动作图像对应的单帧图像识别结果基于相应的权重值进行加权求平均值，将求得的平均值作为待识别动作的识别结果。

步骤28，根据图像序列识别结果，确定待识别动作的识别结果。

当与上述实时动作图像对应的单帧图像识别结果不满足第二预设准确度条件时，说明与上述实时动作图像对应的单帧图像识别结果不具备参考价值，则可以直接将图像序列识别结果，作为待识别动作的识别结果。

步骤29，将单帧图像识别结果作为待识别动作的识别结果。

当单帧图像识别结果满足第一预设准确度条件时，说明仅凭借当前帧的动作图像即可准确识别待识别动作，则直接将单帧图像识别结果作为待识别动作的识别结果。

本申请实施例公开的实时动作识别方法，通过基于预设动作的标志性动作节点对应的动作图像训练单帧图像动作识别模型，并基于动作图像中的骨骼节点信息训练针对骨骼节点图像序列进行动作识别的图像序列动作识别模型，使得在线进行实时动作识别的过程中，如果实时动作图像基于单帧图像动作识别模型的识别结果置信度满足预设条件，即可将单帧图像动作识别模型的识别结果作为该实时动作图像的动作识别结果；如果实时动作图像基于单帧图像动作识别模型的识别结果置信度不满足预设条件，则可根据该实时动作图像关联的预设帧数动作图像的基于骨骼节点信息的图像序列识别结果确定该实时动作图像的动作识别结果，有效提升了动作识别的速度。

同时，当单帧动作图像的识别结果准确率很低时，采用基于骨骼节点信息的图像序列识别结果确定该实时动作图像的动作识别结果，有助于提升识别结果的准确性。例如，当由于光线明暗程度、衣着复杂程度、背景杂乱等干扰因素导致无法通过单帧动作图像准确进行动作识别时，通过提取动作图像中不受上述因素干扰的骨骼节点信息进行动作识别，并结合多帧动作图像的骨骼节点信息进行动作识别，能够有效提升动作识别的准确度。

进一步的，当单帧动作图像的识别结果准确率满足一定置信度条件时，通过结合单帧动作图像的识别结果和多帧动作图像的基于骨骼节点信息进行动作识别的识别结果，共同确定该实时动作的识别结果，可以充分利用有效输入信息，进而提升动作识别的准确度。

实施例三：

相应的，如图4所示，本申请还公开了一种实时动作识别装置，所述装置包括：

实时动作图像确定模块41，用于确定待识别动作发生过程中的当前动作节点对应的实时动作图像；

单帧图像识别模块42，用于将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果；

待识别动作识别结果确定模块43，用于根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果；

可选的，如图5所示，在将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果之前，所述装置还包括：

样本图像集获取模块44，用于获取每个预设动作发生过程中的至少一个标志性动作节点对应的若干动作图像构成的样本图像集；

单帧图像动作识别模型训练模块45，用于根据所述样本图像集进行深度卷积神经网络训练，得到单帧图像动作识别模型。

可选的，如图5所示，所述装置还包括：

样本图像序列获取模块46，用于获取预设动作发生过程中的若干顺序发生的动作节点对应的动作图像构成的样本图像序列；

骨骼节点样本图像确定模块47，用于确定所述样本图像序列中每帧动作图像中的骨骼节点信息，确定所述每帧动作图像对应的骨骼节点样本图像；

骨骼节点样本图像序列确定模块48，用于将所述骨骼节点样本图像依序排列，构成骨骼节点样本图像序列；

图像序列动作识别模型训练模块49，用于根据所述骨骼节点样本图像序列进行时空图卷积网络训练，得到图像序列动作识别模型

可选的，如图6，所述待识别动作识别结果确定模块43，进一步包括：

第一判断子模块431，用于判断与所述实时动作图像对应的单帧图像识别结果是否满足第一预设准确度条件；

第一识别结果确定子模块432，用于若与所述实时动作图像对应的单帧图像识别结果满足第一预设准确度条件，则将所述单帧图像识别结果作为所述待识别动作的识别结果。

可选的，在与所述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，所述待识别动作识别结果确定模块43，还包括：

图像序列识别结果确定子模块433，用于基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果；

第二判断子模块434，用于判断与所述实时动作图像对应的单帧图像识别结果是否满足第二预设准确度条件；

第二识别结果确定子模块435，用于若满足第二预设准确度条件，则根据所述图像序列识别结果与所述实时动作图像对应的单帧图像识别结果的融合结果，确定所述待识别动作的识别结果；以及，

第三识别结果确定子模块436，用于若与所述实时动作图像对应的单帧图像识别结果不满足第二预设准确度条件时，根据所述图像序列识别结果，确定所述待识别动作的识别结果。

可选的，所述基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果时，上述图像序列识别结果确定子模块用于：

本申请实施例公开的实时动作识别装置用于执行上述实时动作识别方法，所述装置的各模块用于实现上述方法各步骤，所述装置的各模块的具体实现方案参照方法的相应步骤，本实施例不再赘述。

本申请实施例公开的实时动作识别装置，通过确定待识别动作发生过程中的当前动作节点对应的实时动作图像；将实时动作图像输入至预先训练的单帧图像动作识别模型，确定待识别动作的与上述实时动作图像对应的单帧图像识别结果；根据与上述实时动作图像对应的单帧图像识别结果，和/或,与上述实时动作图像关联的图像序列对应的图像序列识别结果，确定待识别动作的识别结果，有助于解决现有技术中进行动作识别时，识别速度慢的问题。本申请实施例公开的实时动作识别装置根据单帧动作图像识别情况进一步确定通过单帧动作图像的识别结果进行动作识别，或通过多帧动作图像的识别结果进行动作识别，由于采用了预先训练的模型进行单帧动作图像识别，可以进一步提升动作实别的准确率，进而在单帧动作图像识别置信度较高情况下，可以大大提升识别速度

进一步的，通过基于预设动作的标志性动作节点对应的动作图像训练单帧图像动作识别模型，并基于动作图像中的骨骼节点信息训练针对骨骼节点图像序列进行动作识别的图像序列动作识别模型，使得在线进行实时动作识别的过程中，如果实时动作图像基于单帧图像动作识别模型的识别结果置信度满足预设条件，即可将单帧图像动作识别模型的识别结果作为该实时动作图像的动作识别结果；如果实时动作图像基于单帧图像动作识别模型的识别结果置信度不满足预设条件，则可根据该实时动作图像关联的预设帧数动作图像的基于骨骼节点信息的图像序列识别结果确定该实时动作图像的动作识别结果，有效提升了动作识别的速度。

相应的，本申请实施例还公开了一种电子设备，所述电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例一和实施例二所述的实时动作识别方法。所述电子设备可以为手机、PAD、平板电脑、人脸识别机等。

相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请实施例一和实施例二所述的实时动作识别方法的步骤。

本申请的装置实施例与方法相对应，装置实施例中各模块和各单元的具体实现方式参见方法是实施例，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解，在本申请所提供的实施例中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，不经过创造性劳动想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种实时动作识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果的步骤之前，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述与所述实时动作图像关联的图像序列对应的图像序列识别结果为：基于所述图像序列中每帧动作图像的骨骼节点信息，通过预先训练的图像序列动作识别模型对所述图像序列进行识别所得到的图像序列识别结果。

4.根据权利要求3所述的方法，其特征在于，所述根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据与所述实时动作图像对应的单帧图像识别结果，和/或,与所述实时动作图像关联的图像序列对应的图像序列识别结果，确定所述待识别动作的识别结果的步骤，还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果的步骤，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述骨骼节点图像组成的图像序列输入至预先训练的图像序列动作识别模型，确定待识别动作的图像序列识别结果的步骤之前，还包括：

8.一种实时动作识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，在将所述实时动作图像输入至预先训练的单帧图像动作识别模型，确定与所述实时动作图像对应的单帧图像识别结果之前，所述装置还包括：

10.根据权利要求8或9所述的装置，其特征在于，所述与所述实时动作图像关联的图像序列对应的图像序列识别结果为：基于所述图像序列中每帧动作图像的骨骼节点信息，通过预先训练的图像序列动作识别模型对所述图像序列进行识别所得到的图像序列识别结果。

11.根据权利要求10所述的装置，其特征在于，所述待识别动作识别结果确定模块，进一步包括：

12.根据权利要求11所述的装置，其特征在于，在与所述实时动作图像对应的单帧图像识别结果不满足第一预设准确度条件的情况下，所述待识别动作识别结果确定模块，还包括：

13.根据权利要求12所述的装置，其特征在于，所述基于所述图像序列中每帧动作图像的骨骼节点信息，确定与所述图像序列对应的图像序列识别结果时，所述图像序列识别结果确定子模块用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项权利要求所述的实时动作识别方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任意一项权利要求所述的实时动作识别方法的步骤。